패스트캠퍼스 환급 챌린지

패스트캠퍼스 환급챌린지 5일차 미션(2월5일):프롬프트 엔지니어링으로 시작하는 AI/LLM 서비스 개발 강의후기

foruheon 2025. 2. 5. 23:38

본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.

 

1. 데이터 확보의 중요성

서비스 개발에서 데이터 확보는 단순한 준비 과정이 아니라, 서비스 품질과 성능을 결정짓는 핵심 요소입니다. 특히, 후기 요약 같은 자연어 처리(NLP) 기반 서비스에서는 다양한 시나리오에서 테스트할 수 있도록 최대한 유사한 데이터를 확보해야 합니다.

  • 서비스 출시 전, 다양한 환경과 케이스에서 테스트
  • 후기 요약 방식이 서비스 기획 단계에서 어떻게 반영될지 고려
  • 충분한 평가 데이터 확보를 통해 객관적인 성능 검증

2. 데이터의 유형과 활용

데이터는 목적에 따라 평가 데이터, 학습 데이터, 참고 데이터로 구분될 수 있습니다.

① 참고 데이터

  • 기존의 우수한 후기 요약 예시를 수집하여 기준을 마련
  • 유저가 원하는 요약 스타일이나 주요 키워드 파악

② 평가 데이터

  • 성능을 객관적으로 측정하기 위해 다량의 평가 데이터 확보
  • 데이터가 많을수록 모델의 일반화 성능 개선 가능

③ 학습 데이터 (필요 시)

  • 프롬프트 엔지니어링만으로 성능이 부족할 경우 파인튜닝 필요
  • 자체 모델을 개발한다면 학습 데이터 확보가 필수

3. 데이터 확보 방법론 (3가지 주요 접근법)

① 데이터 크롤링 및 API 활용 (비정제 데이터)

  • 웹 크롤링 및 API를 활용하여 데이터를 수집
  • 대표적인 예: 네이버 지도 API를 활용한 장소 기반 후기 데이터 수집
  • 주요 고려 사항:
    • 데이터 품질이 일정하지 않음 (정제 필요)
    • 라이선스 및 저작권 문제 발생 가능

② 데이터 허브 활용 (정제된 데이터)

  • AI Hub(국내), Hugging Face(글로벌) 등의 오픈소스 데이터셋 활용
  • 다운로드가 쉬우며, 라이선스가 명확하게 명시됨
  • 기존 연구 또는 검증된 데이터셋 활용 가능

③ 직접 데이터 생성 (휴먼 레이블링 / 합성 데이터 활용)

  • 특정 태스크에 맞춰 데이터 생성
  • AI 모델을 이용한 합성 데이터 생성 (ChatGPT API 활용)
  • 데이터 구매 또는 외주 레이블링 인력 활용
  • 상업적 목적일 경우 법적 문제(저작권, 개인정보 등) 고려 필요

4. 현실적인 데이터 확보 전략

  • 크롤링은 쉽지만 법적 리스크가 존재하므로, 라이선스를 철저히 검토해야 한다.
  • 오픈 데이터셋을 적극 활용하되, 최종 서비스와의 적합성을 분석해야 한다.
  • 자체 데이터 구축 시 비용과 시간이 많이 들지만, 고유한 데이터셋이 경쟁력이 될 수 있다.
  • 평가 데이터가 부족할 경우, 합성 데이터를 활용하는 것도 좋은 대안이 될 수 있다.

데이터 확보는 단순히 데이터를 모으는 것이 아니라, 서비스의 목표와 한계를 고려하여 최적의 방법을 선택하는 과정입니다. 실무에서 활용 가능한 현실적인 접근법을 고민하는 것이 중요합니다.

 

① 오늘자 날짜, 공부 시작 시각

 

② 오늘자 날짜, 공부 종료 시각

③ 클립 1번 수강 인증 사진

④ 클립 2번 수강 인증 사진

 

⑤ 학습 인증샷 1장 이상 (ex. 필기 촬영, 작업물, 등)

 

OPENAI_API_KEY 등록하는 곳에서 오류가 발생했다. 강사님은 mac기준으로 설정했는데 내 PC에서는 제대로 동작이 되질 않았다. 이 부분은 다시 한번 확인이 필요한듯 하다.

 

https://bit.ly/4gL1f1o