Gemma 3n vs Gemma 4: Galaxy S25 Ultra 실측 벤치마크 가이드

TecAce Software
4월 14일
4분 분량

Google의 Gemma 시리즈가 3n에서 4세대로 업그레이드됐습니다. 새 모델이 나올 때마다 가장 먼저 드는 질문은 하나입니다. “실제 기기에서 얼마나 빠를까?” TecAce는 그 질문에 직접 답하기 위해 Samsung Galaxy S25 Ultra에서 두 세대를 동일한 조건으로 테스트했습니다.

이번 테스트는 llama.cpp CPU 추론 엔진을 기준으로, Gemma 3n E2B Q8_0(이전 세대 베이스라인)과 Gemma 4 E2B의 세 가지 양자화 변형(Q3_K_M, Q4_K_M, Q8_0)을 총 네 가지 구성으로 비교했습니다. 단순 속도 측정이 아닌 요약, 구조화 출력, 코드 생성, 수학 연산 등 실제 앱 시나리오 기반의 태스크별 지연 시간과 정확도까지 함께 측정했습니다.

결론부터 말하면: Gemma 4는 대부분의 영역에서 확실한 세대 발전을 보여줍니다. 하지만 양자화 선택에 따라 수학 연산에서 심각한 성능 회귀가 발생하는 함정도 있습니다. 이 리포트는 그 두 가지 사실을 모두 담고 있습니다.

테스트 환경

모든 테스트는 동일한 디바이스와 추론 엔진 조건에서 진행되었습니다.

디바이스	Samsung SM-S942U (Galaxy S25 Ultra)
SoC	QTI SM8850 (Snapdragon 8 Elite) · 8코어
운영체제	Android 16 (SDK 36)
추론 엔진	llama.cpp (CPU only)
테스트 일자	2026년 4월 8일

테스트 모델 구성

세대	양자화	비고	색상 코드
Gemma 3n	Q8_0	베이스라인 (이전 세대)	파란색 — 기준선
Gemma 4	Q3_K_M	3-bit 경량	보라색
Gemma 4	Q4_K_M	4-bit 균형	자홍색
Gemma 4	Q8_0 ★	8-bit 고정밀 (권장)	초록색 — 최고 성능

전반적 성능 개선: 37% 빠르고 2배 빠른 컨텍스트 처리

동일한 Q8_0 양자화 기준으로 비교했을 때, Gemma 4는 이전 세대 대비 전반적으로 뚜렷한 향상을 보였습니다.

모델	평균 지연 시간	디코드 TPS	프리필 TPS	메모리	통과율
G3n Q8_0 (기준)	38.4s	13.71	19.41	779 MB	72%
G4 Q3_K_M	26.2s	13.18 (-4%)	27.62 (+42%)	707 MB	60%
G4 Q4_K_M	26.3s	17.20 (+25%) ★	34.75 (+79%)	708 MB	64%
G4 Q8_0 ★	24.2s (-37%)	16.75 (+22%)	40.15 (+107%) ★	708 MB	72% ★

가장 주목할 지표는 프리필 TPS입니다. G4 Q8_0은 초당 40.15 토큰을 처리해 G3n(19.41)의 2.1배 속도를 기록했습니다. 프리필은 사용자 입력을 처음 처리하는 단계이므로, 긴 대화 기록이나 RAG(검색 증강 생성) 시나리오에서 체감 응답 속도에 직접 영향을 미칩니다.

메모리 사용량도 개선되었습니다. Gemma 4 시리즈 전체가 Gemma 3n(779 MB) 대비 약 70 MB 적은 708 MB 수준을 유지했습니다. 동일한 파라미터 규모임에도 메모리 관리 아키텍처가 효율화된 결과입니다.

태스크별 상세 성능 비교

전체 평균 수치 뒤에는 태스크 유형별로 극명하게 갈리는 성능 차이가 숨어 있습니다. 특히 구조화 출력과 요약에서의 가속과, 수학 연산에서의 회귀는 모델 선택에 직접 영향을 줍니다.

태스크	G3n Q8_0	G4 Q3_K_M	G4 Q4_K_M	G4 Q8_0	최고 가속비
간단 응답	0.5s	0.5s	0.4s	0.4s	1.42×
창의적 글쓰기	9.2s	6.2s	4.6s	3.8s	2.40×
추론	4.0s	2.0s	8.0s	10.2s	1.99×
요약	13.5s	6.4s	3.5s	2.9s	4.72× ★
구조화 출력 (JSON)	40.6s	12.3s	6.6s	9.5s	6.19× ★★
지식 설명	38.3s	19.6s	18.1s	18.2s	2.12×
수학 연산	9.1s	26.5s	50.0s ⚠	21.6s	0.42× ⚠ 회귀!
코드 생성	93.3s	48.6s	38.6s	51.0s	2.42×
장문 생성	104.5s	92.4s	87.0s	82.6s	1.27×

구조화 출력(JSON, 마크다운 표) 태스크에서 G4 Q4_K_M이 기록한 6.19배 가속은 이번 벤치마크의 가장 인상적인 결과입니다. API 응답 포맷팅이나 데이터 파이프라인을 구축하는 앱에서 체감 차이가 클 것입니다.

요약 태스크 역시 G4 Q8_0이 13.5초 → 2.9초로 4.72배 빠르게 처리했습니다. 문서 기반 챗봇이나 뉴스 요약 앱에 Gemma 4를 도입할 강력한 이유가 됩니다.

주의: Q4_K_M의 수학 연산 회귀

모든 수치가 긍정적이지는 않습니다. Gemma 4 Q4_K_M에서 수학 태스크 지연 시간이 9.1초에서 50.0초로 5.5배 증가하는 심각한 회귀가 발생했습니다.

원인: 4-bit 양자화 수준에서 과도한 Chain-of-Thought 생성이 유발되어, 모델이 수학 문제를 해결하는 과정에서 불필요하게 긴 추론 체인을 생성합니다. 이는 Q3_K_M(26.5초)이나 Q8_0(21.6초)에서는 발생하지 않는 Q4 고유의 현상입니다.

수학·논리 연산이 핵심인 앱에서는 다음 가이드라인을 따르세요:

• 계산기, 수학 튜터, 코딩 어시스턴트 → G4 Q8_0 또는 G3n Q8_0 사용

• G4 Q4_K_M은 수학 중심 워크플로우에서 배제

• 배터리 절약이 최우선이면 G4 Q3_K_M 고려 (26.5초로 Q4_K_M보다 빠름)

시스템 영향: 배터리 · 발열 · 메모리

속도만큼 중요한 것이 배터리 소모와 발열입니다. 특히 모바일 앱에서는 지속 사용 시 사용자 경험에 직접 영향을 미치기 때문입니다.

모델	메모리	배터리/실행	발열 델타	초기화	통과율
G3n Q8_0	779.0 MB	0.240%	6.0 ★	542ms	72.0%
G4 Q3_K_M	706.8 MB ★	0.160% ★	10.32	381ms ★	60.0%
G4 Q4_K_M	707.6 MB	0.240%	12.92	436ms	64.0%
G4 Q8_0 ★	707.7 MB	0.320%	15.20	523ms	72.0% ★

G4 Q3_K_M은 배터리 소모가 실행당 0.160%로 가장 적고 초기화 시간도 381ms로 최단입니다. 배터리 수명이 최우선 제약인 IoT 기기나 저전력 시나리오에 적합합니다. 단, 통과율이 60%로 낮아 정확도가 중요한 앱에서는 적합하지 않습니다.

G4 Q8_0은 배터리 소모가 0.320%로 가장 높지만, G3n과 동일한 72% 통과율을 유지하면서 37% 빠른 속도를 제공합니다. 대부분의 프로덕션 앱에 가장 균형 잡힌 선택입니다.

결론 및 모델 선택 가이드

테스트 결과를 바탕으로 도출한 세 가지 핵심 인사이트와 시나리오별 권장 모델입니다.

핵심 인사이트

• Gemma 4 Q8_0은 동일 양자화 기준 G3n 대비 1.6× 속도 향상 + 70 MB 메모리 절감을 동시에 달성했습니다.

• 프리필 TPS 2배 향상(19.41 → 40.15)은 RAG, 긴 대화 히스토리, 문서 처리 앱에서 체감 가장 크게 나타납니다.

• Q4_K_M의 수학 회귀(9.1s → 50.0s)는 양자화 선택이 단순 속도 이상의 품질 리스크를 수반함을 보여줍니다.

시나리오별 권장 모델

시나리오	권장 모델	이유
최고 성능 (속도 + 품질)	G4 Q8_0 ★	G3n 대비 1.6× 빠름, 메모리 절감, 동일 통과율
스트리밍 대화 (최고 디코드)	G4 Q4_K_M ★	디코드 TPS 17.2 — 25% 향상
배터리 최우선 절약	G4 Q3_K_M	실행당 0.160% 최저 배터리 소모
수학·논리 앱	G4 Q8_0 또는 G3n	Q4_K_M 수학 회귀 회피 필수
JSON·구조화 출력 중심	G4 Q4_K_M ★	G3n 대비 6.2× 가속, 최강 성능

Gemma 4 E2B는 같은 파라미터 규모에서 명확한 세대 발전을 이뤘습니다. Q8_0에서의 37% 지연 감소와 2× 프리필 향상은 실제 앱 배포에서 유의미한 차이를 만들어 냅니다. 다만 Q4_K_M의 수학 회귀는 모델 선택 시 반드시 고려해야 할 변수입니다.

자세한 내용은 링크로 확인하실 수 있습니다.

Gemma 3n vs Gemma 4: Galaxy S25 Ultra 실측 벤치마크 가이드

관련 게시물

댓글