top of page

갤럭시 A 시리즈 Gemma3 파이프라인 벤치마크

왜 이 테스트가 중요한가

SoC 세대 하나가 추론 속도를 29% 바꿉니다. 미드레인지 폰에서 Gemma3를 실용적으로 쓸 수 있는지, 숫자로 확인했습니다.

온디바이스 LLM을 보급형 스마트폰에 탑재할 때 가장 큰 질문은 "어떤 칩셋에서 실용적인 속도가 나오느냐"입니다. 갤럭시 A16·A26·A36·A56 4종에 gemma-3-270m-it-int8 모델을 MediaPipe CPU 백엔드로 구동하고, 25개 프롬프트에 대한 추론 속도·메모리·정확도를 측정했습니다.

추가로 병렬(4대 동시) vs 직렬(순차, 2회 반복) 두 방식으로 테스트해 실행 방식이 결과에 영향을 주는지도 검증했습니다. 결론: 병렬/직렬 차이는 없었고, SoC 세대 차이는 컸습니다.

 

테스트 환경

4종 디바이스 모두 동일한 모델 파일과 MediaPipe 엔진을 사용했습니다. 변수는 SoC와 Android 버전뿐입니다.

디바이스

모델명

SoC

Android

CPU

Max Heap

A16

SM-A166U

Exynos s5e8535

Android 14

8코어

256 MB

A26

SM-A266U

Exynos s5e8835

Android 15

8코어

256 MB

A36

SM-A366U

Qualcomm SM6475

Android 15

8코어

256 MB

A56

SM-A566U1

Exynos s5e8855

Android 15

8코어

256 MB

 

A56(Exynos s5e8855)만 최신 세대 칩셋으로, 유일하게 Android 15 환경입니다. A16는 Android 14·구세대 Exynos로 기준선(baseline)입니다.

 

전체 성능 순위 — SoC가 속도를 결정한다

A56가 11,593ms로 가장 빠르고, A16는 16,430ms로 가장 느립니다. 칩셋 세대 차이가 29% 속도 격차를 만들었습니다.


A56 평균 응답 시간 11.6초 · Decode TPS 23.12 — 4개 디바이스 중 최고

 

아래 표는 병렬 테스트(25회/디바이스) 기준 핵심 지표입니다. Decode TPS가 높을수록 응답이 빠르고, TTFT가 낮을수록 첫 토큰이 빨리 나옵니다.

디바이스

평균(ms)

중간값(ms)

Decode TPS

Prefill TPS

TTFT(ms)

초기화(ms)

A16

16,430

6,864

15.39

24.25

812

1,448

A26

13,560

5,610

18.60

36.96

539

1,279

A36

13,974

5,946

17.46

37.82

512

1,219

A56

11,593

3,795

23.12

52.15

371

966

 

A16(빨간색)는 평균 16.4초로 실시간 채팅 UX에서 사용자 이탈이 우려됩니다. A26·A36는 13.5~14.0초로 실용 범위에 들어오며, A56는 중간값 3.8초로 인터랙티브 응답이 가능합니다.


[그림 1] 디바이스별 평균 지연시간 비교 (초)



[그림 2] Decode TPS vs Prefill TPS 비교

 

카테고리별 지연시간 — 짧은 응답은 빠르고, 장문은 기다린다

minimal·math·reasoning은 1초 이하로 빠릅니다. long_generation과 code는 20~60초가 소요됩니다. 이 패턴은 모든 디바이스에서 동일합니다.

카테고리

A16

A26

A36

A56

최소 출력

1,020

872

676

404

수학

1,615

1,226

1,314

952

추론

1,065

767

815

575

지식

5,221

4,085

4,301

3,415

요약

7,038

5,547

5,647

3,246

창작

5,669

4,537

4,784

3,469

구조화

24,754

20,450

20,971

15,635

코드

31,515

26,410

26,853

40,304

장문

60,318

50,144

52,032

28,878

 

코드·장문 카테고리가 전체 평균을 크게 끌어올립니다. 실제 앱에서 이 두 태스크 비중을 낮추면 체감 속도가 크게 개선됩니다.


[그림 3] 카테고리별 지연시간 히트맵 (초)

 

메모리 사용량 — Qualcomm이 14% 더 가볍다

모든 디바이스에서 약 415~482MB의 Native 메모리를 사용합니다. 속도가 가장 빠른 A56보다 Qualcomm SM6475 기반 A36가 메모리 효율에서 앞섰습니다.


A36(Qualcomm SM6475) 평균 메모리 414.7MB — A16(482.4MB) 대비 14% 절감

 

디바이스

평균 Peak Native (MB)

최대 Peak Native (MB)

A16

482.4

512

A26

422.8

449

A36

414.7

441

A56

418.8

444

 

Qualcomm 플랫폼의 메모리 할당자가 Samsung Exynos 대비 LLM 레이어 로딩 시 더 효율적으로 동작하는 것으로 추정됩니다. NPU 백엔드 전환 시 이 차이가 더 두드러질 것으로 예상됩니다.

 

벨리데이션 결과 — 모델 한계는 디바이스와 무관하다

Ground Truth가 있는 14개 프롬프트에 대해 정답 여부를 검증했습니다. 모든 디바이스에서 통과율이 50.0%로 동일했습니다. 디바이스가 아닌 모델 자체의 한계입니다.


전 디바이스 벨리데이션 통과율 50.0% (7/14) — 구조화 출력·코드 100%, 수학·추론 취약

 

아래는 통과/실패 항목 전체 내역입니다. 실패 패턴이 모든 디바이스에서 완전히 동일한 점이 핵심입니다.

프롬프트

카테고리

Ground Truth

결과

원인 분석

minimal_01

최소 출력

4

fail

모델이 "2" 반환 — 기본 산술 실패 (270M 파라미터 한계)

minimal_02

최소 출력

yes

fail

"no" 반환 — 의미 이해 실패

factual_01

사실 지식

Paris

pass

정확히 Paris 포함

factual_02

사실 지식

H2O

fail

H₂O(유니코드) 반환 → 벨리데이터 정규화 필요 (모델 오류 아님)

math_01

수학

722

pass

237+485=722 정확

math_02

수학

-0.79

fail

0.01 반환 — 부호 처리 실패

math_03

수학

80 km/h

fail

60 km/h 반환 — 단위 변환 실패

reason_01

논리 추론

A

fail

"C" 반환 — 전이적 추론 실패

reason_02

논리 추론

No

fail

"Yes" 반환 — 논리 오류

structured_01

구조화

4개 항목

pass

JSON 배열 정확 생성

structured_02

구조화

4개 필드

pass

JSON 객체 정확 생성

code_01

코드

def 포함

pass

Factorial 함수 정확

code_02

코드

def 포함

pass

Binary Search 함수 생성

code_03

코드

def 포함

pass

Stack 클래스 생성

 

factual_02(H₂O)는 모델이 올바른 화학식을 알고 있으나 유니코드 아래첨자로 표기한 것입니다. 벨리데이터에 NFKC 정규화를 추가하면 통과율이 57%로 올라갑니다. 수학·추론 실패는 270M 파라미터 모델의 구조적 한계입니다.

 

병렬 vs 직렬 — 동시 실행해도 성능은 변하지 않는다

4대를 동시에 돌려도 각 디바이스의 추론 속도는 달라지지 않았습니다. 병렬/직렬 차이가 모두 ±1.5% 이내입니다.

병렬 테스트는 4개 디바이스를 동시에 실행한 결과(25회/디바이스)이고, 직렬 테스트는 각 디바이스에서 순차적으로 2회 반복한 결과(50회/디바이스)입니다.

디바이스

병렬(ms)

직렬(ms)

Δ ms

Δ %

판정

직렬 재현성

A16

16,430

16,365

-65

-0.4%

동등

-129ms / -0.8%

A26

13,560

13,584

+24

+0.2%

동등

+48ms / +0.4%

A36

13,974

13,895

-79

-0.6%

동등

-157ms / -1.1%

A56

11,593

11,770

+177

+1.5%

동등

+354ms / +3.1%

 

MediaPipe CPU 백엔드는 독립된 프로세스 공간에서 동작하기 때문에 다른 디바이스의 동시 부하가 영향을 주지 않습니다. 재현성 인증이 필요할 때만 직렬 2런을 권장합니다.


[그림 4] 병렬 vs 직렬 평균 지연시간 비교


[그림 5] 지연시간 변화율 % (직렬 − 병렬)


[그림 6] 지연시간 분포 Boxplot

 

결론 — 3가지 핵심 규칙

Rule 1. 속도가 필요하면 A56, 메모리가 걱정되면 A36

A56(Exynos s5e8855)는 Decode TPS 23.12로 인터랙티브 UX가 가능한 유일한 디바이스입니다. 메모리 효율은 Qualcomm SM6475(A36)가 14% 앞섭니다. 앱 특성에 따라 우선순위를 선택하십시오.

Rule 2. 병렬 테스트는 신뢰할 수 있다

4대 동시 실행이 개별 성능에 영향을 주지 않으므로, 병렬 방식으로 전체 기기를 동시에 측정할 수 있습니다. 재현성 인증이 필요할 때만 직렬 2런을 권장합니다.

Rule 3. 수학·추론 정확도는 모델 업그레이드 없이 해결 안 된다

벨리데이션 50% 실패는 디바이스 문제가 아닌 270M 파라미터 한계입니다. 정확도가 중요한 시나리오에서는 Gemma3 1B 이상 모델로 업그레이드를 검토하십시오.

시나리오

권장 디바이스

이유

실시간 채팅 / 인터랙티브 UX

Galaxy A56

Decode TPS 23.12, 중간값 지연 3.8초 — 체감 응답 양호

구조화 출력 / JSON 생성

전 디바이스

100% 정확도 — 디바이스 무관

코드 생성 보조

Galaxy A36~A56 권장

A16에서 코드 태스크 평균 31,515ms — 실용성 낮음

메모리 제약 환경

Galaxy A36

Qualcomm SM6475 최저 메모리 414.7MB

복잡한 수학·논리 추론

모델 업그레이드 필요

Gemma3 1B 이상 검토 (현 270M 한계)



댓글


bottom of page
AX Consulting
AX Consulting
FREE
Start your AI transformation