본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.
이번 강의에서는 평가용 테스트 케이스를 확보하고 변환하는 과정을 학습했다. 총 50개의 테스트 케이스를 확보하는 것이 목표였으며, 대화 데이터를 분석하여 2인 대화(20개)와 3인 이상 대화(30개)를 선별하는 방법을 실습했다.
1. 데이터 필터링 및 수집 과정
- glob 모듈을 활용하여 특정 경로에서 JSON 데이터를 불러왔다.
- 대화 참여자가 2명인 경우, 30턴 이상 진행된 대화를 필터링하여 20개의 데이터를 확보했다.
- 참여자가 3명 이상인 경우에도 동일한 기준을 적용하여 30개의 데이터를 선정했다.
- 대화의 첫 번째와 두 번째 문장이 동일한 경우 반복된 데이터로 간주하여 제거했다.
- 결과적으로, 필터링된 데이터가 conversations 리스트에 저장되었다.
2. 데이터 확장: 3천자 이상 변환
- 원본 데이터셋에서는 3천자를 넘는 대화가 존재하지 않았기에, Anthropic Claude 3.5 Sonnet을 활용하여 대화를 확장했다.
- 기존 대화의 앞부분을 AI가 자연스럽게 보완하여 길이를 늘렸다.
- 변환된 데이터를 기존 conversations 리스트에 추가하여 3천자 이상을 만족하는 데이터를 포함시켰다.
3. 최종 데이터 저장 및 함수 구현
- 가공된 데이터를 pickle 형식으로 저장하여 재사용할 수 있도록 설계했다.
- get_eval_data() 함수를 구현하여 평가 데이터를 불러올 수 있도록 했다.
- eval.py에 해당 함수를 저장하여 이후 평가 과정에서 활용할 수 있도록 구성했다.
4. 강의 인사이트 및 느낀 점
- 실무에서 사용할 평가 데이터의 품질을 높이기 위한 전략이 중요
- 단순히 데이터를 확보하는 것만이 아니라, 평가의 신뢰도를 높이기 위해 데이터의 구조와 품질을 고려하는 것이 필수적이었다.
- 자동화의 필요성
- glob, pickle, json 등의 라이브러리를 활용하여 데이터 수집, 변환, 저장을 자동화함으로써 효율성을 높일 수 있었다.
- 대화 데이터 확장의 어려움
- 원본 데이터가 3천자를 넘지 않는 경우 AI를 활용하여 확장하는 과정에서 자연스러운 흐름을 유지하는 것이 관건이었다.
- 적절한 프롬프트를 활용하여 기존 대화와 조화를 이루도록 보완하는 방법을 학습했다.
① 오늘자 날짜, 공부 시작 시각

② 오늘자 날짜, 공부 종료 시각

③ 클립 1번 수강 인증 사진

④ 클립 2번 수강 인증 사진

⑤ 학습 인증샷 1장 이상 (ex. 필기 촬영, 작업물, 등)

CLI에서 데이터셋 다운로드
'패스트캠퍼스 환급 챌린지' 카테고리의 다른 글
| 패스트캠퍼스 환급챌린지 12일차 미션(2월12일):프롬프트 엔지니어링으로 시작하는 AI/LLM 서비스 개발 강의후기 (3) | 2025.02.12 |
|---|---|
| 패스트캠퍼스 환급챌린지 9일차 미션(2월9일):프롬프트 엔지니어링으로 시작하는 AI/LLM 서비스 개발 강의후기 (0) | 2025.02.09 |
| 패스트캠퍼스 환급챌린지 7일차 미션(2월7일):프롬프트 엔지니어링으로 시작하는 AI/LLM 서비스 개발 강의후기 (0) | 2025.02.07 |
| 패스트캠퍼스 환급챌린지 6일차 미션(2월6일):프롬프트 엔지니어링으로 시작하는 AI/LLM 서비스 개발 강의후기 (0) | 2025.02.06 |
| 패스트캠퍼스 환급챌린지 5일차 미션(2월5일):프롬프트 엔지니어링으로 시작하는 AI/LLM 서비스 개발 강의후기 (0) | 2025.02.05 |