top of page

[Case Study] 사용자 데이터 기반 파인튜닝 방식을 활용한 기업용 전문 번역 모델 생성

ree

개요:

TecAce는 AI 기술을 활용하여 업무 생산성을 향상시킬 수 있는 AI 서비스 개발을 선도하고 있습니다. 우리는 생성형 AI를 사용하여 문서를 원하는 형태로 변환하고 요약하는 기술과 이를 번역에도 적용하여 전문 영역에서의 번역 서비스를 제공하고 있습니다. 또한 생성형 AI의 결과물을 평가하고 분석하는 자체 기술을 통해, 기업과 전문 분야에서 신뢰할 수 있는 서비스를 제공하는 전문 AI 기술 개발 업체입니다.


도전:

최근 다양한 고객사로부터 번역과 관련된 요청을 다수 접하고 있습니다. 고객들은 생성형 AI를 활용하여 보다 빠르고 효율적인 결과를 기대하고 있습니다. 하지만, ChatGPT, Bard, Naver Clova 등을 직접 사용해본 결과, 전반적으로 만족스럽지만 업무에는 적용이 어렵다고 입을 모읍니다. 특히 전문 분야에서 잘못된 번역이 기업의 신뢰성에 부정적인 영향을 미칠 수 있기 때문에, 생성 AI의 잠재력을 인식하고 있음에도 불구하고 섣불리 도입하기를 망설이고 있습니다.


저희가 최근 컨설팅을 진행하고 있는 고객사의 번역 요구 사항을 정리하자면 다음과 같습니다:

  • 해당 분야의 전문가 수준에 맞는 형태로 정확하게 번역해야 합니다.

  • 필요에 따라 기업에서 사용하는 전문 용어를 사용해야 합니다.

  • 기업의 기존 번역 스타일을 유지해야 합니다. 새로운 문장이나 단어를 만들어서 추가하는 것은 안됩니다.

  • 오역은 절대 있어서는 안 됩니다.


일반적으로GPT를 사용하여 번역을 하면 아래와 같은 이슈들이 발견할 수 있었습니다. GPT 4와 같은 최신 생성형 AI를 사용하더라도, 주어진 문서에 적합한 정교한 프롬프트를 넣어주지 않는다면 테이블1에서 처럼 고객사의 세부 요구 사항을 충족시키기는 쉽지 않습니다. 예를 들어, 한국어로 "컴퓨터 한글 문서(.HWP)를..."이라는 문구를 영어로 번역할 때, "Computer Korean document(.HWP)…"와 같이 직역하는 문제를 발견했습니다. GPT 4에 해당 내용에 대한 프롬프트가 들어있지 않는다면 주어진 문서에는 번역에 대한 가이드가 없기 때문에 ‘한글 문서’와 같은 특정 문구를 원하는 형태로 번역하는 데는 한계가 있었습니다. 또한 독자들이 쉽게 읽게 하기 위해 고객사 번역의 특징인 여러 문구가 섞여 있는 복합 한글 문장은 대명사를 이용한 복수 단순 영문 문장으로 번역하는 방식도 GPT 4는 자동으로 처리하지 않았습니다. 그리고 ‘어떤’과 같은 단어를 영어로 번역 할때    certain 또는 specific이 될 수 있는데 뉘앙스의 차이가 있어서 고객사가 번역하는 스타일에 맞추는 것이 쉽지 않았습니다.


테이블 1. 파인튜닝 미사용한 번역 결과의 이슈들

분야

고객사 휴먼 번역

파인튜닝 미사용 번역 결과  (정교한 프롬프트 미적용)

고유 명사: ‘한글 문서(.HWP)’

HWP Document

Korean Document(.HWP)

한글 복합 문장

복수의 영문 단순 문장

영문 복합 문장

뉘앙스 고려: ‘어떤’

Certain

영문 복합 문장

해결책:

해결책을 개발하기 위해 두 가지 방법을 시도했습니다. 첫 번째로, GPT 4.0을 사용하여 전문 분야의 번역 솔루션을 준비했습니다. 많은 예시 문서를 기반으로 Glossary를 작성하고, 특정 단어에 대한 정확한 번역을 위한 프롬프트를 사용하여 번역 테스트를 진행했습니다. 이러한 고급 프롬프트 기술로 작성된 프롬프트는 정확하고 전문단어를 활용하면서 어느정도 만족스러운 번역할 수 있었습니다. 하지만, 고객이 원하는 스타일(영어에서는 단문장을 활용, 뉘앙스 적용 등)로는 결과를 내주지 않았습니다.


두 번째로, GPT 3.5 Turbo 모델을 기반으로 사용자 데이터를 이용한 Fine-tuning을 적용해 보았습니다. 처음에 기존의 번역 데이터를 사용하여 데이터셋을 100개 정도 만들고 GPT 3.5 Turbo 4K 모델에서 Fine-tuning을 시도했지만, 만족스러운 결과를 얻지 못했습니다. Fine-tune 모델로 번역 테스트를 해본 결과, GPT 4.0 프롬프트 버전과 비교하여 더 나은 결과를 얻지 못했습니다.


세번째로, 번역 데이터셋을 1000개 이상 준비하면서 데이터 정리와 정제 과정을 체계적으로 수행하고, 학습용 하이퍼파라미터를 최적으로 설정하여 GPT 3.5 Turbo 1106 모델에서 Fine-tuning을 시도한 결과, GPT 4.0 프롬프트 버전보다 기업이 요구하는 수준에 더 근접하는 번역 결과를 얻을 수 있었습니다. 즉, 앞서 GPT 4 번역에서 나왔던 이슈들이 해결되어 기업에서 제공한 참조 번역에서 사용하는 단어를 더 많이 사용하고, 기존의 번역 스타일을 더 잘 따르는 번역 결과를 얻었습니다.


모델별 번역 성능의 비교를 위해20개의 문서와 3가지 지표(BLEU, METEOR, BERT)를 통해 성능 결과를 측정해 보았고 그 결과를 테이블 2에 정리하였습니다. 연속된 N개의 단어를 비교하는 N-gram방식에서 N을 4까지 늘려서 사용하고 있어 번역 성능 지표로 많이 활용되고 있는 BLEU와 METEOR에서는 파인튜닝 모델들이 고객 데이터를 학습하지 않은 모델 (GPT 4)보다 상당히 우수한 점수를 얻었습니다. METEOR는 BLEU 지표와 비슷하지만 유사어와 동사형태를 더 고려하고 있고, 이 지표에서 조금 더 성능 이득이 있었습니다. 이 결과는 그림 1의 Boxplot으로도 비교해 통계적인 특성 차이도 알 수 있게 정리했습니다. 머쉰러닝에 기반해 문맥을 일부 고려하는 BERT 지표의 경우, 파인튜닝 모델들이 정밀도 (precision) 지표가 재현성 지표보다는 높은 걸로 나왔습니다. 따라서 추가적인 내용을 최소화하면서 원문 및 참조 번역문에 충실한 번역을 수행한다는 의미로 해석할 수 있습니다. 재현(recall)은 약간 부족한데 N-gram을 모두 표현하는 데는 더 많은 정보로 학습된 상위 GPT 모델이 우수하다는 것을 알 수 있었습니다. 따라서 학습 데이터를 늘리게 되면 두 경우 모두 재현율도 상대적으로 좋아질 수 있어 파인튜닝 모델의 재현율도 사용자 데이터를 더 포함하게 되면 성능이 더 좋아질 거로 예상이 됩니다. 결론적으로 이런 지표들을 단순 평균한 지표를 보면 많은 데이터로 학습한 GPT 3.5 Fintune-1106이 가장 높은 값을 가진다는 것을 알 수 있었습니다.


테이블 2. 모델별 번역 성능 비교

ree
ree

  1. BLEU 점수에 대한 Boxplot을 통한 비교

※ BLEU - Bilingual Evaluation Understudy Score : BLEU는 기계 번역 결과와 사람이 직접 번역한 결과가 얼마나 유사한지 비교하여 번역에 대한 성능을 측정하는 방법이다. 언어에 구애받지 않고 사용할 수 있으며, 계산 속도가 빠르다는 장점이 있다. 값이 클수록 성능이 좋다.

ree
  1. METEOR 점수에 대한 Boxplot을 통한 비교


  • 그림 1. BLEU와 METEOR 점수에 대한 Boxplot 비교


※ METEOR (Metric for Evaluation of Translation with Explicit Ordering) 점수는 기계 번역의 질을 평가하기 위한 척도입니다. 이는 BLEU (Bilingual Evaluation Understudy) 점수와 비슷하지만, 몇 가지 중요한 차이점이 있습니다. METEOR는 번역된 텍스트와 원본 텍스트 간의 유사성을 측정하기 위해 정확성과 순서를 모두 고려합니다.


결과:

GPT 4.0을 사용하여 다양한 Glossary와 함께 프롬프트를 사용하는 것도 효과적이지만, Glossary의 양이 증가함에 따라 관리 문제와 프롬프트의 희석 문제가 발생할 수 있습니다. 이번에 시도한 사용자 데이터를 이용한 Fine-tuning 모델의 사용은 다음과 같은 장점을 보여주었습니다:

  • GPT 3.5 Fine-tune 모델은 GPT 4.0 프롬프트 버전과 비교하여 기업이 원하는 번역 스타일을 잘 맞출 수 있었습니다. GPT 4.0의 경우 없는 단어를 추가로 만들어내는 경향이 많이 있었습니다.

  • GPT 3.5 Fine-tune 모델을 사용함으로써 토큰 사용 비용을 크게 줄일 수 있었습니다. 약 8배 가량의 비용을 절감할 수 있었습니다.

  • GPT 3.5 버전을 사용함으로써, GPT 4.0 프롬프트 버전에 비해 번역을 처리하는 속도가 매우 빨라졌습니다.

GPT 4.0 프롬프트 버전도 문맥이나 번역 측면에서 큰 문제는 없었지만,  ~~~~특정한 영역이나 목적을 위해서는 사용자 데이터에 기반한Fine-tuned 버전이 훨씬 효과적임을 알 수 있었습니다. 그러나, Fine-tuning을 위해서는 전문화된 데이터 사전 처리와 최적의 학습용 하이퍼파라미터 활용 등의 기술과 경험이 필수적으로 요구 됩니다.

Comments


bottom of page