RAG 리더보드 공개-금융, 공공, 의료, 법률, 커머스 한국어 RAG 성능 평가

올거나이즈가 RAG 리더보드를 공개했습니다. 금융, 공공, 의료, 법률, 커머스의 한국어 RAG 성능을 평가하실 수 있습니다. 테스트 데이터 셋까지 모두 공개해 누구나 사용 가능합니다. 기업을 위한 RAG는 복잡한 표와 이미지에서도 답을 잘 찾을 수 있어야 합니다. 업종별 특징과 실무 문서 스타일을 반영한 RAG들을 비교해 보실 수 있습니다.

Allganize Korea

2024년 5월 29일 • 7 min read

올거나이즈가 국내 최초 RAG 리더보드를 공개합니다.

RAG(Retrieval Augmented Generation, 검색증강생성)란 생성형 AI의 환각(할루시네이션) 현상을 최소화할 수 있는 대안으로 주목받는 기술입니다. 사전 학습한 데이터만을 활용하는 게 아닌, 기업 내부 데이터 등 이미 존재하는 최신 데이터에서 답을 찾아냅니다. 이들 답변 중 질문 및 검색어의 맥락을 고려한 후 가장 적절한 대답을 제공하는 방식입니다.

올거나이즈의 RAG 리더보드는 RAG 기술의 성능을 측정해 순위를 매겨, 기업 AI 실무자들이 가장 적절한 솔루션을 비교 도입할 수 있도록 돕습니다.

금융, 공공, 의료, 법률, 커머스의 5개 분야에 대한 한국어 RAG 성능을 평가하고요.답변 유사도 및 정확도를 판단하는 5개의 평가 툴(LLM Eval)로 RAG 성능을 평가해 신뢰도를 높이고 오차를 줄였습니다.

각 LLM Eval을 사용해 5개의 평가 결과 중 O가 3개 이상인 경우 O으로, 2개 이하이면 X로 평가했습니다.

RAGAS : answer_correctness (threshold=0.6)
TonicAI : answer_similarity (threshold=4)
MLflow : answer_similarity/v1/score (threshold=4)
MLflow : answer_correctness/v1/score (threshold=4)
Allganize Eval : answer_correctness/claude3-opus

각 분야별로 2~300페이지의 문서를 업로드한 후, 분야마다 사용자가 할 법한 질문 60개를 생성했습니다. 질문별로 RAG가 답변을 생성하면, 5개의 평가 툴 중 3개 이상에서 오류가 없을 경우 '이상 없음'으로 판명합니다. 해외 RAG 리더보드의 경우 일반적으로 1~2개의 평가 툴만을 활용하고 있습니다.

특히 현재 공개돼 있는 RAG 리더보드 중 유일하게 RAG의 3개 구성요소를 모두 평가합니다. RAG는 문서에서 글자·그림·표 등을 추출하고 읽기 쉬운 포맷으로 변경해주는 파서(Parser), 기업이 보유한 방대한 데이터 중 사용자가 원하는 대답을 즉시 찾아주는 리트리버(Retrieval), 새로운 지식과 학습 데이터를 토대로 LLM이 응답을 생성해내는 답변생성(Generation)의 3개 요소로 구성돼 있습니다.

올거나이즈는 기업들이 RAG을 도입하고자 할 때, 어떤 RAG가 적합한지 성능평가를 제대로 하기 어렵다는 점을 고려해 테스트 데이터셋을 모두 공개합니다. 실제 업무 문서에 표, 이미지 등이 복잡하게 얽혀 있다는 점을 감안해서 표 및 이미지 데이터도 테스트 데이터셋에 포함시켰습니다.

RAG 리더보드는 허깅페이스를 통해 확인할 수 있으며, 리더보드에 들어간 RAG 솔루션들도 링크로 공개돼 있어 누구나 손쉽게 체험해 볼 수 있습니다.

올거나이즈는 다양한 산업별 고객사와의 협업 노하우를 바탕으로, 자체 개발한 RAG 솔루션을 공급하고 있습니다. 올거나이즈의 ‘RAG 2.0’은 수백만 건 이상의 사내 문서에서 정확한 답을 찾기 위해 고성능의 리트리버 모델을 전략적으로 구성해 왔습니다. 키워드 기반의 엘라스틱 서치, 문서의 제목과 페이지의 덴스 벡터로 구성되어 있으며, 산업별 특화 데이터가 사전 학습되어 있습니다. 여기에 고객사의 문서나 데이터베이스를 연동하면, 개발자가 별도로 투입되지 않아도 고객사의 전용 모델을 자동으로 만듭니다. 결과물에 대한 사용자 피드백도 실시간으로 반영해 리트리버의 정확도가 지속적으로 올라가 실무자들의 만족도가 높습니다. 이렇게 사용자의 피드백을 활용한 답변 생성 방법과 키워드 기반 검색 및 의미 기반 검색을 상호 보완해 검색 성능을 향상 시키는 방법은 각각 특허로 출원되어 있습니다.

올거나이즈는 AI 생태계에 기여하기 위해 테스트 데이터셋을 모두 공개했으며, 이를 활용해 한국어로 된 다양한 RAG 솔루션의 성능이 향상됐으면 하는 바람이 있습니다. 대학 및 개인 연구자들은 AI 연구에 도움을 받을 수 있을 것이고, 기업들 역시 성능 좋은 RAG를 도입함으로써 업무 생산성 증대를 경험할 수 있을 것입니다.

RAG 2.0 솔루션에 대해 궁금하시다면? 올거나이즈에 언제든 문의주세요.