[On-Device AI Chatbot] 3편: 모바일 AI의 핵심 기술: 양자화(Quantization)와 NPU 최적화

TecAce Software
6시간 전
3분 분량

최종 수정일: 5시간 전

Core Technologies of Mobile AI

Quantization and NPU Optimization

지난 2편에서는 TecAce 프로젝트에 적합한 소형 언어 모델(SLM)로 Gemma-2B를 선정하고, 스마트폰의 제한된 리소스 환경에서 CPU와 GPU를 활용해 성능을 테스트한 과정을 공유했습니다. 하지만 테스트 결과, 초기 구동 지연과 메모리 초과(Out of Memory)라는 현실적인 벽에 부딪혔습니다.

데이터센터의 GPU 랙이 아닌, 한 손에 쥐어지는 모바일 기기에서 LLM을 실시간으로 구동하려면 하드웨어 가속기(NPU)를 극한으로 활용하고 모델의 크기를 대폭 줄이는 '기술적 다이어트'가 필수적입니다. 이번 3편에서는 온디바이스 AI 구현의 핵심 기술인 양자화(Quantization)와 NPU 최적화 및 안드로이드 통합 과정을 깊이 있게 살펴보겠습니다.

1. 거대 모델 압축의 마법: 양자화(Quantization)

양자화는 딥러닝 모델의 크기와 연산 요구량을 줄이기 위한 필수적인 기술입니다. 모델의 가중치(Weights)와 활성화 값(Activations)을 구성하는 고정밀 32비트 부동소수점(FP32) 데이터를 8비트(INT8)나 4비트(INT4) 같은 저정밀 정수형 데이터로 변환하는 과정을 말합니다.

메모리 절감 및 속도 향상: 양자화를 적용하면 모델의 메모리 사용량을 4배에서 최대 8배까지 획기적으로 줄일 수 있습니다. 또한 최신 NPU의 정수 연산 장치를 활용하여 추론 속도를 높이고 전력 소비를 대폭 줄일 수 있습니다. 실제로 INT4 사후 학습 양자화(Post-Training Quantization)를 적용하면 모델 크기가 2.5~4배가량 감소하며 대기 시간과 메모리 소비량 역시 크게 줄어듭니다.

양자화의 두 가지 접근법:
1. 사후 학습 양자화(PTQ): 모델 학습이 완료된 후 양자화를 수행하는 방식으로, 구현이 빠르고 간단하지만 약간의 정확도 손실이 발생할 수 있습니다.
2. 양자화 인식 학습(QAT): 학습 과정 자체에 양자화 시뮬레이션을 포함하여 낮은 정밀도에 모델이 적응하도록 만드는 기법으로, PTQ보다 높은 정확도를 보장합니다.

현대의 모바일 AI 챗봇은 AWQ(Activation-Aware Quantization)나 QLoRA와 같은 진보된 압축 기술을 통해 30억(3B) 파라미터 수준의 모델을 4GB 이하의 모바일 가용 메모리 환경에 무리 없이 적재하면서도 원래의 추론 능력을 훌륭히 유지하고 있습니다.

2. NPU 극한 활용: 제조사별 최적화 툴체인

모델을 압축했다면, 다음은 이를 모바일 기기의 핵심 두뇌인 NPU(신경망 처리 장치) 위에서 가장 효율적으로 돌아가도록 설계해야 합니다. TecAce는 안드로이드 생태계의 양대 산맥인 Qualcomm과 Samsung의 도구들을 분석하여 최적의 배포 전략을 수립했습니다.

Qualcomm AI Hub를 통한 최적화 Qualcomm 플랫폼(Snapdragon)이 탑재된 기기에서는 Qualcomm AI Hub Workbench를 활용하여 강력한 최적화가 가능합니다.

디바이스 맞춤형 최적화: PyTorch나 ONNX 포맷의 모델을 업로드하면, 타겟 플랫폼에 맞춰 하드웨어 인식 최적화를 수행합니다.
물리적 디바이스 기반 프로파일링: 클라우드에 구성된 실제 물리적 스마트폰 장치에서 추론을 실행하여, 레이어별 연산 장치 할당, 지연 시간(Latency), 최대 메모리 사용량 등의 메트릭을 정확히 수집할 수 있습니다.

Samsung Exynos AI Studio의 구조적 접근 Samsung 기기를 겨냥할 때는 Exynos AI Studio라는 전용 SDK가 활용됩니다.

EHT (High Level Toolchain): ONNX나 TFLite 모델을 입력받아 내부 IR(Intermediate Representation)로 변환한 뒤, NPU 실행에 적합하도록 그래프 구조를 최적화하고 양자화를 수행해 모델 크기를 줄입니다.
ELT (Low Level Toolchain): 압축된 모델을 실제 각 NPU 세대에 맞춰 하드웨어에서 실행 가능한 형태로 변환(Lowering) 및 컴파일합니다. 특히, 이 과정에서 시뮬레이터와 에뮬레이터를 이용해 양자화 전후의 연산 결과를 오퍼레이터 단위로 비교(SNR 측정)하여 정확도 손실을 꼼꼼히 검증합니다.

3. 안드로이드 네이티브 통합: MediaPipe와 LiteRT

최적화된 모델을 최종적으로 안드로이드(Android) 앱 위에 올리기 위해, Google의 AI Edge Stack을 도입했습니다.

MediaPipe Tasks: LLM 추론을 포함하여 머신러닝 솔루션을 크로스 플랫폼 환경에 손쉽게 배포할 수 있는 고수준 API를 제공합니다.
LiteRT (구 TensorFlow Lite): 안드로이드 기기에서 AI 모델을 실행하는 고성능 런타임 엔진입니다. LiteRT는 하드웨어 가속기(GPU, NPU 델리게이트)를 기본적으로 지원하여, 모바일 환경에서 가장 빠르고 안정적인 모델 실행 환경을 보장합니다.

최근에는 RAG(검색 증강 생성) 라이브러리와 Function Calling(함수 호출) 라이브러리가 모바일 환경을 위해 새롭게 공개되면서, 챗봇이 단순히 텍스트를 생성하는 것을 넘어 디바이스 내부 데이터와 연결되고 특정 동작을 스스로 수행할 수 있는 기반이 마련되었습니다.

다음 편 예고

모델을 성공적으로 모바일 기기에 탑재하여 빠르고 똑똑한 '뇌'를 갖췄다면, 이제는 챗봇과 사용자가 상호작용할 수 있는 '눈과 귀와 입'을 달아줄 차례입니다.

이어지는 [4편] 챗봇의 귀와 입: 온디바이스 STT/TTS 통합기에서는 텍스트 타이핑의 한계를 벗어나 음성으로 자연스럽게 대화하는 멀티모달 인터페이스를 구현하기 위해, 완전히 오프라인으로 동작하는 STT(음성 인식)와 TTS(음성 합성) 기술을 안드로이드 네이티브 앱에 연동한 TecAce의 생생한 개발 경험을 소개하겠습니다.

댓글