카테고리 없음

패스트캠퍼스 환급챌린지 16일차 미션(2월16일):프롬프트 엔지니어링으로 시작하는 AI/LLM 서비스 개발 강의후기

foruheon 2025. 2. 16. 23:19

본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.

 

이번 강의에서는 RAG(Retrieval-Augmented Generation) 평가 방법론을 깊이 있게 다루며, 특히 RAG 로직의 성능 평가에 집중할 수 있었다. 기존에 LLM의 성능을 중심으로 평가하는 방식과 달리, RAG 자체의 성능을 정밀하게 측정하는 방법을 배울 수 있어 실무 적용에 대한 감각을 키울 수 있었다.

강의에서 가장 인상적이었던 부분은 RAG 평가가 단순한 정확도 측정에 그치는 것이 아니라, 다양한 지표를 활용하여 보다 입체적으로 진행된다는 점이었다. 특히 코사인 유사도(Cosine Similarity) 를 활용한 평가 방법이 흥미로웠다. 질문과 문맥(Context) 간의 유사도를 수치화하여 얼마나 적절한 정보를 검색해 왔는지를 정량적으로 판단하는 과정이 실용적이었다. 이를 통해 단순한 검색이 아니라, 실제 답변과 관련성이 높은 문맥을 찾아내는 것이 얼마나 중요한지 다시 한번 깨닫게 되었다.

 

또한, 정답 컨텍스트가 존재하는 경우와 존재하지 않는 경우의 평가 방식 차이도 큰 배움이었다. 기존에는 정답이 있는 상황에서만 정확도를 평가하는 것이 일반적이었지만, 실제 현업에서는 완벽한 정답 컨텍스트를 찾기 어려운 경우가 많다. 이를 해결하기 위해 **RAGAS 평가 지표(예: Context Recall, Answer Correctness, Faithfulness 등)**를 활용하는 방법을 실습하며, 평가 결과를 어떻게 해석하고 개선할 수 있는지 배울 수 있었다.

실제 코드 실습을 하면서도, 예측된 컨텍스트와 실제 정답 컨텍스트 간의 차이를 비교하고, 이를 개선하기 위해 임베딩 모델을 변경하는 과정이 매우 인사이트가 있었다. 특히, text-embedding-3-large 모델을 활용한 평가가 기존 모델보다 나은 성능을 보였다는 점도 흥미로웠다. 단순히 검색 성능을 높이는 것이 아니라, 임베딩 모델의 선택과 튜닝이 얼마나 중요한지 체감할 수 있었다.

 

RAG 평가를 단순히 숫자로 측정하는 것이 아니라, 검색된 컨텍스트가 실제로 도움이 되는지, 신뢰할 수 있는지, 그리고 모델이 제공하는 정보가 얼마나 적절한지를 다각도로 분석하는 것이 중요하다는 점을 다시금 깨닫게 되었다. 특히, 정량적 평가뿐만 아니라 정성적 분석도 병행해야 한다는 점에서, LLM과 RAG 시스템을 평가하는 새로운 시각을 가질 수 있는 좋은 기회였다.

앞으로 실무에서도 단순히 모델의 성능을 측정하는 데 그치지 않고, 어떤 방식으로 검색된 문맥이 실제 답변 생성에 기여하는지 분석하는 태도를 가져야겠다고 다짐하게 된 강의였다.

 

 

① 오늘자 날짜, 공부 시작 시각

② 오늘자날짜, 공부 종료 시각

 

③ 클립 1번 수강 인증 사진

④ 클립 2번 수강 인증 사진

⑤ 학습 인증샷 1장 이상 (ex. 필기 촬영, 작업물, 등)

 

 

https://bit.ly/4gL1f1o