최신 기술 콘텐츠

All Posts
블로그
뉴스
케이스스터디
AX Pro
AI Supervision
On-device LLM

SAMSUNG Galaxy S25 vs S26 온디바이스 AI 벤치마크

Galaxy S25 vs S26: 온디바이스 AI 성능 반전 결과! (Snapdragon 8 Elite Gen 1 vs Gen 2) 최신 스마트폰의 AI 성능, 숫자가 높다고 무조건 빠를까요? TecAce 에서 진행한 실측 데이터를 통해 Galaxy S25와 S26의 온디바이스 LLM 성능을 전격 비교해 보았습니다. 테스트 개요 비교 기기 : Galaxy S25 (Snapdragon 8 Elite) vs Galaxy S26 (Snapdragon 8 Elite Gen 2) 테스트 모델 : Gemma3 1B (INT4) : 반응 속도 중심의 초경량 모델 Qwen2.5 1.5B (Q8) : 높은 정밀도의 복잡한 추론 모델 테스트 규모 : 총 108회 테스트 (27종 프롬프트, 11개 카테고리 수행) 한눈에 보는 핵심 성능 지표 단순히 S26이 모든 면에서 우세할 것이라는 예상과 달리, 두 기기는 서로 다른 강점을 보였습니다. 지표 (Gemma3 1B 기

케이스스터디

3월 27일

[On-Device AI Chatbot] 10편: 온디바이스 AI의 미래와 TecAce의 로드맵 (Conclusion)

온디바이스 AI의 미래와 TecAce의 로드맵 지난 9편의 연재를 통해 우리는 클라우드 비용과 보안 문제의 해결책인 '온디바이스 AI'의 개념부터, 경량화 모델(SLM)의 선정과 양자화, 오프라인 STT/TTS의 통합, 로컬 RAG 구축, 그리고 AI SuperVision을 활용한 깐깐한 품질 검증과 하드웨어 성능 최적화까지 챗봇 개발의 모든 여정을 살펴보았습니다. 대장정의 마지막인 이번 10편에서는 TecAce 팀이 이번 프로젝트를 통해 얻은 값진 교훈(Lessons Learned)을 돌아보고, 단순한 대화형 챗봇을 넘어 스스로 사고하고 행동하는 'Agentic AI(자율 행동 AI)' 로 진화하기 위한 향후 로드맵을 공유하며 시리즈를 마무리하고자 합니다. AI Supervision Main Dashboard 1. Lessons Learned: 프로젝트를 통해 얻은 세 가지 교훈 SLM은 '장난감'이 아니다: 목적에 맞는 최적화의 힘 초기에

블로그

3월 2일

[On-Device AI Chatbot] 9편: 성능 한계 도전: 발열, 배터리, 그리고 응답 속도

성능 한계 도전 발열, 배터리, 그리고 응답 속도 지난 8편에서는 'AI SuperVision'을 통해 챗봇의 환각(Hallucination)을 잡아내고 답변의 품질을 높이는 과정을 공유했습니다. 모델이 똑똑해지고 정확해지는 것은 기쁜 일이지만, 실제 스마트폰(Galaxy S25 FE 등) 환경에서 이를 구동할 때 우리는 매우 물리적이고 현실적인 벽에 부딪히게 됩니다. 바로 발열(Thermal), 배터리 소모, 그리고 응답 속도(Latency) 의 한계입니다. 클라우드 데이터센터의 무한한 자원과 달리, 한 손에 들어오는 모바일 기기는 전력과 냉각 능력이 극도로 제한되어 있습니다. 이번 9편에서는 TecAce 팀이 진정한 온디바이스 AI 구현을 위해 이 물리적 제약들과 어떻게 타협하고 최적화했는지 생생한 성능 벤치마크 과정과 인사이트를 공유합니다. 1. 모바일 AI의 3대 체감 성능 지표: TTFT, TPS, IPW 사용자가 챗봇을 사용할 때

블로그

2월 26일

[On-Device AI Chatbot] 8편: 환각(Hallucination) 잡기: SuperVision 테스트 결과 분석

8편: 환각(Hallucination) 잡기 SuperVision 테스트 결과 분석 지난 7편에서는 스마트폰 내부의 챗봇 앱과 PC의 AI SuperVision 서버를 연결하여, '질문 주입부터 답변 추출, 자동 채점'까지 이어지는 테스트 파이프라인을 구축했습니다. 이제 수십 개의 테스트 케이스를 자동으로 돌려볼 수 있는 환경이 마련되었습니다. 그렇다면 과연 우리의 온디바이스 SLM(Gemma-2B 기반)은 이 가혹한 심판관 앞에서 어떤 성적표를 받았을까요? 이번 8편에서는 실제 다중 컨텍스트(Multi-Context) 환경에서 진행된 자동화 테스트의 구체적인 결과와, 발견된 환각(Hallucination)의 유형, 그리고 이를 개선하기 위한 인사이트를 공유합니다. 1. 다중 컨텍스트(Multi-Context) 기반 테스트 시나리오 TecAce 팀은 챗봇의 실무 투입 가능성을 검증하기 위해 완전히 다른 도메인의 4가지 사내/제품 문서(Con

블로그

2월 25일

[On-Device AI Chatbot] 7편: SuperVision 구축기: 자동화된 챗봇 테스트 파이프라인

SuperVision 구축기 자동화된 챗봇 테스트 파이프라인 지난 6편에서는 생성형 AI의 고질적인 환각(Hallucination) 현상을 객관적으로 평가하기 위해 Testworks의 'AI SuperVision' 도구를 도입한 배경을 설명했습니다. 하지만 이 도구를 실제 우리 프로젝트에 적용하기 위해서는 한 가지 큰 기술적 장벽을 넘어야 했습니다. 바로 우리의 LLM 챗봇은 스마트폰 내부(On-device) 에서 오프라인으로 구동되는 반면, 평가를 수행할 AI SuperVision 시스템은 PC 및 웹 서버(Host) 환경에 존재한다는 점입니다. 수십, 수백 개의 테스트 케이스를 사람이 직접 스마트폰에 타이핑하고 결과를 PC로 옮겨 적는 것은 불가능에 가깝습니다. 이번 7편에서는 이 물리적인 간극을 메우고, 질문 입력부터 답변 추출, 그리고 AI 검증까지의 전 과정을 5분 이내로 단축시킨 자동화된 테스트 파이프라인 구축 과정 을 상세히 공

블로그

2월 24일

[On-Device AI Chatbot] 6편: AI 품질, 어떻게 검증할까? (Introduction to SuperVision)

AI 품질, 어떻게 검증할까? (Introduction to SuperVision ) 지난 5편에서는 로컬 RAG(검색 증강 생성)와 멀티 컨텍스트 스위칭을 통해 온디바이스 챗봇에 우리 회사만의 지식을 주입하는 과정을 살펴보았습니다. 하지만 챗봇이 지식을 얻었다고 해서 모든 문제가 해결되는 것은 아닙니다. "이 챗봇이 엉뚱한 대답을 꾸며내지 않고, '진짜 문서에 있는 내용만' 진실하게 말하고 있는지 어떻게 확신할 수 있을까요?" 이번 6편에서는 생성형 AI의 고질적인 문제인 '환각(Hallucination)' 현상과, 챗봇의 품질을 객관적으로 평가하기 위해 TecAce가 도입한 자동화 검증 도구 'AI SuperVision(에이아이 수퍼비전)' 에 대해 소개합니다. 1. 기존 테스트의 한계와 환각(Hallucination)의 위협 전통적인 소프트웨어 개발에서는 예상되는 결과값과 실제 결과값을 비교하는 단위 테스트(Unit Test)를 통해

블로그

2월 23일

[On-Device AI Chatbot] 4편: 챗봇의 귀와 입: 온디바이스 STT/TTS 통합기

챗봇의 귀와 입 온디바이스 STT/TTS 통합기 지난 3편에서는 거대 언어 모델을 스마트폰의 제한된 리소스에 맞게 압축하고, 모바일 NPU를 활용해 추론 속도를 끌어올리는 최적화 과정을 살펴보았습니다. 빠르고 똑똑하게 사고하는 '뇌(Brain)'를 기기 내부에 탑재하는 데 성공했다면, 이제는 사용자와 자연스럽게 상호작용할 수 있는 '귀와 입' 을 달아줄 차례입니다. 모바일 환경에서 매번 긴 텍스트를 타이핑하는 것은 사용자 경험(UX) 측면에서 큰 제약이 됩니다. 따라서 TecAce 팀은 완벽한 오프라인 환경을 유지하면서도 음성으로 대화할 수 있는 멀티모달 인터페이스를 구현하기 위해 온디바이스 STT(음성 인식)와 TTS(음성 합성) 통합 작업에 착수했습니다. 1. 챗봇의 귀: 오프라인 STT (Speech-to-Text) 도입 보안과 프라이버시가 핵심인 이번 프로젝트의 특성상, 사용자의 음성 데이터 역시 클라우드 서버로 전송되어서는 안 됩니다

블로그

2월 20일

[On-Device AI Chatbot] 5편: 문맥을 이해하는 챗봇: 로컬 RAG와 멀티 컨텍스트 구현

문맥을 이해하는 챗봇 로컬 RAG와 멀티 컨텍스트 구현 지난 4편에서는 기기 내부에서 동작하는 STT와 TTS를 연동하여 챗봇에게 '눈과 귀와 입'을 달아주었습니다. 하지만 챗봇이 아무리 사람의 말을 잘 알아듣고 자연스럽게 대답하더라도, 우리 회사의 사내 규정이나 특정 제품의 매뉴얼 등 '도메인 지식'을 모른다면 업무용 비서로서는 반쪽짜리에 불과합니다. 소형 언어 모델(SLM)은 크기가 작은 만큼 모든 사실적 지식을 파라미터 내부에 기억(Memorization)하는 데 한계가 있습니다. 이번 5편에서는 외부 인터넷 연결 없이 오직 스마트폰 내부에 저장된 문서를 읽고 답변하는 로컬 RAG(검색 증강 생성) 기술과, 다양한 대화 주제를 넘나드는 멀티 컨텍스트 스위칭(Multi-Context Switching) 의 구현 과정을 상세히 다뤄보겠습니다. 1. 내 폰 안의 지식 창고: 온디바이스 RAG 도입 보안 지침 때문에 외부 클라우드로 사내 문서

블로그

2월 19일

[On-Device AI Chatbot] 1편: 왜 지금 '온디바이스 AI'인가? (Overview)

왜 지금 '온디바이스 AI'인가? 최근 몇 년간 챗GPT를 필두로 한 생성형 AI는 우리의 업무와 일상을 혁신적으로 바꾸어 놓았습니다. 하지만 이처럼 강력한 AI 서비스들의 이면에는 '클라우드 의존성'이라는 공통된 한계가 존재합니다. 사용자의 질문이 클라우드 서버로 전송되고, 거대한 데이터센터에서 연산된 결과를 다시 기기로 받아보는 구조는 필연적으로 데이터 유출의 위험과 네트워크 지연, 막대한 서버 유지 비용을 발생시킵니다. 이러한 한계를 극복하고 AI의 주도권을 기기 내부로 가져오는 기술, 바로 '온디바이스 AI(On-Device AI)'가 새로운 패러다임으로 급부상하고 있습니다. 이번 1편에서는 클라우드에서 엣지(Edge)로 AI 트렌드가 전환되는 이유와 함께, TecAce가 왜 자체적인 온디바이스 AI 챗봇 개발 프로젝트에 뛰어들게 되었는지 그 배경을 소개합니다. 온디바이스 AI가 가져온 3가지 혁신 단순히 '인터넷 없이 동작하는 챗봇'을

블로그

2월 16일

[On-Device AI Chatbot] 3편: 모바일 AI의 핵심 기술: 양자화(Quantization)와 NPU 최적화

Core Technologies of Mobile AI Quantization and NPU Optimization 지난 2편에서는 TecAce 프로젝트에 적합한 소형 언어 모델(SLM)로 Gemma-2B를 선정하고, 스마트폰의 제한된 리소스 환경에서 CPU와 GPU를 활용해 성능을 테스트한 과정을 공유했습니다. 하지만 테스트 결과, 초기 구동 지연과 메모리 초과(Out of Memory)라는 현실적인 벽에 부딪혔습니다. 데이터센터의 GPU 랙이 아닌, 한 손에 쥐어지는 모바일 기기에서 LLM을 실시간으로 구동하려면 하드웨어 가속기(NPU)를 극한으로 활용하고 모델의 크기를 대폭 줄이는 '기술적 다이어트'가 필수적 입니다. 이번 3편에서는 온디바이스 AI 구현의 핵심 기술인 양자화(Quantization) 와 NPU 최적화 및 안드로이드 통합 과정 을 깊이 있게 살펴보겠습니다. 1. 거대 모델 압축의 마법: 양자화(Quantization) 양자

블로그

2월 15일

[On-Device AI Chatbot] 2편: 내 손안의 거대언어모델: 모바일용 SLM(Small Language Model) 선정 전략

내 손안의 거대언어모델 모바일용 SLM(Small Language Model) 선정 전략 1편에서는 클라우드 비용과 데이터 보안 문제를 해결하기 위해 '온디바이스 AI'가 필수적인 패러다임으로 자리 잡고 있음을 확인했습니다. 그렇다면 데이터센터의 거대한 GPU 랙에서나 돌아갈 법한 수백억, 수천억 개 파라미터의 거대 언어 모델(LLM)을 어떻게 스마트폰이라는 작은 기기 안에 넣을 수 있을까요? 그 해답은 바로 '소형 언어 모델(Small Language Model, SLM)' 에 있습니다. 이번 2편에서는 2026년 현재 가장 주목받는 SLM들을 비교해 보고, TecAce가 실제 프로젝트를 위해 어떤 기준으로 모델을 테스트하고 최종 선정했는지 생생한 과정을 공유합니다. 2026년, SLM 생태계의 춘추전국시대 SLM은 일반적으로 100억 개(10B) 미만의 파라미터를 가지며, 스마트폰, 엣지 디바이스, 심지어 브라우저에서도 효율적으로 동작하도록

블로그

2월 12일