[On-Device AI Chatbot] 6편: AI 품질, 어떻게 검증할까? (Introduction to SuperVision)

TecAce Software
2월 23일
2분 분량

AI 품질, 어떻게 검증할까?

(Introduction to SuperVision)

지난 5편에서는 로컬 RAG(검색 증강 생성)와 멀티 컨텍스트 스위칭을 통해 온디바이스 챗봇에 우리 회사만의 지식을 주입하는 과정을 살펴보았습니다. 하지만 챗봇이 지식을 얻었다고 해서 모든 문제가 해결되는 것은 아닙니다.

"이 챗봇이 엉뚱한 대답을 꾸며내지 않고, '진짜 문서에 있는 내용만' 진실하게 말하고 있는지 어떻게 확신할 수 있을까요?"

이번 6편에서는 생성형 AI의 고질적인 문제인 '환각(Hallucination)' 현상과, 챗봇의 품질을 객관적으로 평가하기 위해 TecAce가 도입한 자동화 검증 도구 'AI SuperVision(에이아이 수퍼비전)'에 대해 소개합니다.

1. 기존 테스트의 한계와 환각(Hallucination)의 위협

전통적인 소프트웨어 개발에서는 예상되는 결과값과 실제 결과값을 비교하는 단위 테스트(Unit Test)를 통해 품질을 검증합니다 (assert A == B). 하지만 대규모 언어 모델(LLM)은 본질적으로 확률에 기반하여 텍스트를 생성하므로, 동일한 질문에도 매번 조금씩 다른 문장 구조로 답변합니다. 따라서 기존의 규칙 기반(Rule-based) 테스트 방식으로는 AI의 품질을 검증할 수 없습니다.

또한, LLM은 종종 사실이 아닌 내용을 그럴듯하게 지어내는 환각(Hallucination) 현상을 일으킵니다. 환각은 크게 두 가지로 나눌 수 있습니다.

사실 관계 오류 (Fact Contradicting Hallucination): 주어진 지식이나 기존 사실과 완전히 모순되는 정보를 생성하는 경우입니다.
문맥 및 지시 이탈 (Prompt Misalignment): 사용자의 의도나 프롬프트의 지시사항(예: "3줄로 요약해", "JSON으로 출력해")을 무시하고 엉뚱한 형태나 맥락의 답변을 하는 경우입니다.

이러한 오류를 잡기 위해 사람이 일일이 챗봇에게 질문을 던지고 답변을 읽어보며 평가(Human Evaluation)하는 것은 시간과 비용이 너무 많이 소모되며, 객관적인 수치화가 불가능합니다.

2. 구원투수 등장: Testworks 'AI SuperVision'

이러한 LLM 평가의 한계를 극복하기 위해, TecAce는 Testworks(테스트웍스)에서 개발한 'AI SuperVision'이라는 LLM 자동화 검증 도구를 도입했습니다.

AI SuperVision은 이른바 'LLM-as-a-judge(심판으로서의 LLM)' 방법론을 채택한 도구입니다. 즉, 사람이 아닌 또 다른 강력한 AI(평가자 모델)가 우리의 온디바이스 챗봇(피평가자 모델)이 내놓은 답변을 읽고, 사전에 정의된 엄격한 기준에 따라 채점하고 그 이유를 분석해 내는 시스템입니다. 이를 통해 수백, 수천 개의 테스트 케이스를 사람의 개입 없이 일관되고 빠르게 자동 평가할 수 있게 되었습니다.

3. AI SuperVision의 핵심 평가 지표

AI SuperVision을 통해 TecAce의 온디바이스 RAG 챗봇을 평가할 때 가장 중요하게 측정한 3가지 지표는 다음과 같습니다.

신뢰성 및 근거성 (Faithfulness / Groundedness) RAG 환경에서 가장 핵심이 되는 지표입니다. 챗봇의 답변이 오직 사용자가 제공한 컨텍스트(사내 문서, 매뉴얼 등)에만 근거하고 있는지를 평가합니다. 모델이 자신이 원래 학습했던 외부 지식을 섞어서 대답하거나, 문서에 없는 내용을 지어냈다면(Fabrication) 이 점수가 대폭 하락하게 됩니다.
답변 관련성 (Answer Relevance) 챗봇이 사용자의 질문 의도를 정확히 파악하고 핵심을 찌르는 답변을 했는지 평가합니다. 아무리 사실에 기반한 내용이더라도, 사용자가 묻지 않은 장황한 배경 지식을 늘어놓는다면 좋은 어시스턴트라고 할 수 없습니다.
일관성 (Consistency) 사용자가 질문의 단어나 문장 구조를 조금 바꿔서(Paraphrasing) 묻더라도 챗봇이 동일하고 일관된 정보의 답변을 내놓는지 검증합니다. 이는 모델의 신뢰도를 결정짓는 중요한 요소입니다.

다음 편 예고

평가 도구와 기준은 정해졌지만, 새로운 난관이 기다리고 있었습니다. 우리의 챗봇은 '안드로이드 스마트폰 내부(On-device)'에서 오프라인으로 동작하고, AI SuperVision 도구는 'PC / 웹 서버'에 존재한다는 점입니다. 이 둘을 어떻게 연결하여 자동화 파이프라인을 구축할 수 있을까요?

이어지는 [7편] SuperVision 구축기: 자동화된 챗봇 테스트 파이프라인에서는 스마트폰의 안드로이드 앱과 PC의 검증 도구를 통신하게 만들어주는 'Broker App(브로커 앱)'의 개발과, ADB 및 Python 스크립트를 활용한 극한의 테스트 자동화 환경 구축 과정을 상세히 파헤쳐 보겠습니다.

[On-Device AI Chatbot] 6편: AI 품질, 어떻게 검증할까? (Introduction to SuperVision)

관련 게시물

댓글