갤럭시 A 시리즈 Gemma3 파이프라인 벤치마크
- TecAce Software
- 4월 14일
- 4분 분량
왜 이 테스트가 중요한가
SoC 세대 하나가 추론 속도를 29% 바꿉니다. 미드레인지 폰에서 Gemma3를 실용적으로 쓸 수 있는지, 숫자로 확인했습니다.
온디바이스 LLM을 보급형 스마트폰에 탑재할 때 가장 큰 질문은 "어떤 칩셋에서 실용적인 속도가 나오느냐"입니다. 갤럭시 A16·A26·A36·A56 4종에 gemma-3-270m-it-int8 모델을 MediaPipe CPU 백엔드로 구동하고, 25개 프롬프트에 대한 추론 속도·메모리·정확도를 측정했습니다.
추가로 병렬(4대 동시) vs 직렬(순차, 2회 반복) 두 방식으로 테스트해 실행 방식이 결과에 영향을 주는지도 검증했습니다. 결론: 병렬/직렬 차이는 없었고, SoC 세대 차이는 컸습니다.
테스트 환경
4종 디바이스 모두 동일한 모델 파일과 MediaPipe 엔진을 사용했습니다. 변수는 SoC와 Android 버전뿐입니다.
디바이스 | 모델명 | SoC | Android | CPU | Max Heap |
A16 | SM-A166U | Exynos s5e8535 | Android 14 | 8코어 | 256 MB |
A26 | SM-A266U | Exynos s5e8835 | Android 15 | 8코어 | 256 MB |
A36 | SM-A366U | Qualcomm SM6475 | Android 15 | 8코어 | 256 MB |
A56 | SM-A566U1 | Exynos s5e8855 | Android 15 | 8코어 | 256 MB |
A56(Exynos s5e8855)만 최신 세대 칩셋으로, 유일하게 Android 15 환경입니다. A16는 Android 14·구세대 Exynos로 기준선(baseline)입니다.
전체 성능 순위 — SoC가 속도를 결정한다
A56가 11,593ms로 가장 빠르고, A16는 16,430ms로 가장 느립니다. 칩셋 세대 차이가 29% 속도 격차를 만들었습니다.
A56 평균 응답 시간 11.6초 · Decode TPS 23.12 — 4개 디바이스 중 최고
아래 표는 병렬 테스트(25회/디바이스) 기준 핵심 지표입니다. Decode TPS가 높을수록 응답이 빠르고, TTFT가 낮을수록 첫 토큰이 빨리 나옵니다.
디바이스 | 평균(ms) | 중간값(ms) | Decode TPS | Prefill TPS | TTFT(ms) | 초기화(ms) |
A16 | 16,430 | 6,864 | 15.39 | 24.25 | 812 | 1,448 |
A26 | 13,560 | 5,610 | 18.60 | 36.96 | 539 | 1,279 |
A36 | 13,974 | 5,946 | 17.46 | 37.82 | 512 | 1,219 |
A56 | 11,593 | 3,795 | 23.12 | 52.15 | 371 | 966 |
A16(빨간색)는 평균 16.4초로 실시간 채팅 UX에서 사용자 이탈이 우려됩니다. A26·A36는 13.5~14.0초로 실용 범위에 들어오며, A56는 중간값 3.8초로 인터랙티브 응답이 가능합니다.

[그림 1] 디바이스별 평균 지연시간 비교 (초)

[그림 2] Decode TPS vs Prefill TPS 비교
카테고리별 지연시간 — 짧은 응답은 빠르고, 장문은 기다린다
minimal·math·reasoning은 1초 이하로 빠릅니다. long_generation과 code는 20~60초가 소요됩니다. 이 패턴은 모든 디바이스에서 동일합니다.
카테고리 | A16 | A26 | A36 | A56 |
최소 출력 | 1,020 | 872 | 676 | 404 |
수학 | 1,615 | 1,226 | 1,314 | 952 |
추론 | 1,065 | 767 | 815 | 575 |
지식 | 5,221 | 4,085 | 4,301 | 3,415 |
요약 | 7,038 | 5,547 | 5,647 | 3,246 |
창작 | 5,669 | 4,537 | 4,784 | 3,469 |
구조화 | 24,754 | 20,450 | 20,971 | 15,635 |
코드 | 31,515 | 26,410 | 26,853 | 40,304 |
장문 | 60,318 | 50,144 | 52,032 | 28,878 |
코드·장문 카테고리가 전체 평균을 크게 끌어올립니다. 실제 앱에서 이 두 태스크 비중을 낮추면 체감 속도가 크게 개선됩니다.

[그림 3] 카테고리별 지연시간 히트맵 (초)
메모리 사용량 — Qualcomm이 14% 더 가볍다
모든 디바이스에서 약 415~482MB의 Native 메모리를 사용합니다. 속도가 가장 빠른 A56보다 Qualcomm SM6475 기반 A36가 메모리 효율에서 앞섰습니다.
A36(Qualcomm SM6475) 평균 메모리 414.7MB — A16(482.4MB) 대비 14% 절감
디바이스 | 평균 Peak Native (MB) | 최대 Peak Native (MB) |
A16 | 482.4 | 512 |
A26 | 422.8 | 449 |
A36 | 414.7 | 441 |
A56 | 418.8 | 444 |
Qualcomm 플랫폼의 메모리 할당자가 Samsung Exynos 대비 LLM 레이어 로딩 시 더 효율적으로 동작하는 것으로 추정됩니다. NPU 백엔드 전환 시 이 차이가 더 두드러질 것으로 예상됩니다.
벨리데이션 결과 — 모델 한계는 디바이스와 무관하다
Ground Truth가 있는 14개 프롬프트에 대해 정답 여부를 검증했습니다. 모든 디바이스에서 통과율이 50.0%로 동일했습니다. 디바이스가 아닌 모델 자체의 한계입니다.
전 디바이스 벨리데이션 통과율 50.0% (7/14) — 구조화 출력·코드 100%, 수학·추론 취약
아래는 통과/실패 항목 전체 내역입니다. 실패 패턴이 모든 디바이스에서 완전히 동일한 점이 핵심입니다.
프롬프트 | 카테고리 | Ground Truth | 결과 | 원인 분석 |
minimal_01 | 최소 출력 | 4 | fail | 모델이 "2" 반환 — 기본 산술 실패 (270M 파라미터 한계) |
minimal_02 | 최소 출력 | yes | fail | "no" 반환 — 의미 이해 실패 |
factual_01 | 사실 지식 | Paris | pass | 정확히 Paris 포함 |
factual_02 | 사실 지식 | H2O | fail | H₂O(유니코드) 반환 → 벨리데이터 정규화 필요 (모델 오류 아님) |
math_01 | 수학 | 722 | pass | 237+485=722 정확 |
math_02 | 수학 | -0.79 | fail | 0.01 반환 — 부호 처리 실패 |
math_03 | 수학 | 80 km/h | fail | 60 km/h 반환 — 단위 변환 실패 |
reason_01 | 논리 추론 | A | fail | "C" 반환 — 전이적 추론 실패 |
reason_02 | 논리 추론 | No | fail | "Yes" 반환 — 논리 오류 |
structured_01 | 구조화 | 4개 항목 | pass | JSON 배열 정확 생성 |
structured_02 | 구조화 | 4개 필드 | pass | JSON 객체 정확 생성 |
code_01 | 코드 | def 포함 | pass | Factorial 함수 정확 |
code_02 | 코드 | def 포함 | pass | Binary Search 함수 생성 |
code_03 | 코드 | def 포함 | pass | Stack 클래스 생성 |
factual_02(H₂O)는 모델이 올바른 화학식을 알고 있으나 유니코드 아래첨자로 표기한 것입니다. 벨리데이터에 NFKC 정규화를 추가하면 통과율이 57%로 올라갑니다. 수학·추론 실패는 270M 파라미터 모델의 구조적 한계입니다.
병렬 vs 직렬 — 동시 실행해도 성능은 변하지 않는다
4대를 동시에 돌려도 각 디바이스의 추론 속도는 달라지지 않았습니다. 병렬/직렬 차이가 모두 ±1.5% 이내입니다.
병렬 테스트는 4개 디바이스를 동시에 실행한 결과(25회/디바이스)이고, 직렬 테스트는 각 디바이스에서 순차적으로 2회 반복한 결과(50회/디바이스)입니다.
디바이스 | 병렬(ms) | 직렬(ms) | Δ ms | Δ % | 판정 | 직렬 재현성 |
A16 | 16,430 | 16,365 | -65 | -0.4% | 동등 | -129ms / -0.8% |
A26 | 13,560 | 13,584 | +24 | +0.2% | 동등 | +48ms / +0.4% |
A36 | 13,974 | 13,895 | -79 | -0.6% | 동등 | -157ms / -1.1% |
A56 | 11,593 | 11,770 | +177 | +1.5% | 동등 | +354ms / +3.1% |
MediaPipe CPU 백엔드는 독립된 프로세스 공간에서 동작하기 때문에 다른 디바이스의 동시 부하가 영향을 주지 않습니다. 재현성 인증이 필요할 때만 직렬 2런을 권장합니다.

[그림 4] 병렬 vs 직렬 평균 지연시간 비교

[그림 5] 지연시간 변화율 % (직렬 − 병렬)

[그림 6] 지연시간 분포 Boxplot
결론 — 3가지 핵심 규칙
Rule 1. 속도가 필요하면 A56, 메모리가 걱정되면 A36
A56(Exynos s5e8855)는 Decode TPS 23.12로 인터랙티브 UX가 가능한 유일한 디바이스입니다. 메모리 효율은 Qualcomm SM6475(A36)가 14% 앞섭니다. 앱 특성에 따라 우선순위를 선택하십시오.
Rule 2. 병렬 테스트는 신뢰할 수 있다
4대 동시 실행이 개별 성능에 영향을 주지 않으므로, 병렬 방식으로 전체 기기를 동시에 측정할 수 있습니다. 재현성 인증이 필요할 때만 직렬 2런을 권장합니다.
Rule 3. 수학·추론 정확도는 모델 업그레이드 없이 해결 안 된다
벨리데이션 50% 실패는 디바이스 문제가 아닌 270M 파라미터 한계입니다. 정확도가 중요한 시나리오에서는 Gemma3 1B 이상 모델로 업그레이드를 검토하십시오.
시나리오 | 권장 디바이스 | 이유 |
실시간 채팅 / 인터랙티브 UX | Galaxy A56 | Decode TPS 23.12, 중간값 지연 3.8초 — 체감 응답 양호 |
구조화 출력 / JSON 생성 | 전 디바이스 | 100% 정확도 — 디바이스 무관 |
코드 생성 보조 | Galaxy A36~A56 권장 | A16에서 코드 태스크 평균 31,515ms — 실용성 낮음 |
메모리 제약 환경 | Galaxy A36 | Qualcomm SM6475 최저 메모리 414.7MB |
복잡한 수학·논리 추론 | 모델 업그레이드 필요 | Gemma3 1B 이상 검토 (현 270M 한계) |




댓글