top of page
최신 기술 콘텐츠


Claude Design 이후, 디자인은 대화가 된다 2/5
프롬프트 기반 UI·문서·프로토타입 워크플로우 디자인은 이제 마우스로만 만드는 일이 아니라, AI와 대화하며 구조를 잡는 일이 되고 있다. 요약 (Executive Summary) Claude Design과 같은 대화형 디자인 도구는 디자인의 시작점을 바꾸고 있습니다. 이제 디자인은 빈 캔버스에서만 시작되지 않습니다. 사용자가 원하는 것을 설명하면 AI가 첫 번째 버전을 만들고, 이후 대화와 코멘트, 직접 편집을 통해 결과물을 다듬는 방식이 점점 보편화되고 있습니다. 이 변화는 디자인 생산성을 크게 높입니다. UI 구조, 문서 초안, 슬라이드, 원페이저, 프로토타입까지 대화형 방식으로 빠르게 만들 수 있기 때문입니다. 하지만 동시에 위험도 커집니다. 누구나 대화로 디자인할 수 있다면, 누구나 브랜드를 흔들 수도 있습니다. TecAce는 이 문제를 단순한 프롬프트 교육으로 해결할 수 없다고 판단했습니다. 필요한 것은 “프롬프트를 잘 쓰는 개인”이 아
4일 전


기업을 위한 효율적인 AI 언어 도구: 온디바이스 대규모 언어 모델의 부상
인공지능은 빠르게 진화하고 있습니다. 그중에서도 가장 흥미로운 발전 중 하나는 디바이스에서 직접 작동하는 효율적인 AI 언어 도구의 등장입니다. 이러한 변화는 기업이 데이터, 개인정보 보호, 처리 속도를 다루는 방식을 근본적으로 바꾸고 있습니다. 이제 AI는 클라우드 서버에만 의존하지 않고 스마트폰, 노트북, 엣지 디바이스에서 로컬로 실행될 수 있습니다. 이 글에서는 온디바이스 대규모 언어 모델(LLM)이 무엇인지, 왜 중요한지, 그리고 기업 운영을 어떻게 혁신할 수 있는지 살펴봅니다. 오늘날 효율적인 AI 언어 도구가 중요한 이유 오늘날의 디지털 환경에서는 속도와 개인정보 보호가 가장 중요합니다. 기업은 즉각적으로 응답하면서도 민감한 데이터를 안전하게 보호할 수 있는 AI 솔루션을 요구합니다. 클라우드 기반 AI는 그동안 많은 역할을 해왔지만, 지연 시간과 프라이버시 문제가 동반됩니다. 디바이스에서 직접 작동하는 효율적인 AI 언어 도구는 데이터
4일 전


중소기업을 위한 AI 보안 체크리스트 (자가진단 테스트 포함)
ChatGPT에게 이메일 초안을 부탁하고, Gemini에게 보고서 요약을 맡깁니다. 마치 나만을 위해 일하는 비서처럼 느껴지죠. 믿음이 갑니다. 그런데 바로 그 믿음이 문제의 시작입니다. AI는 친절합니다. 그래서 더 위험합니다. 2023년, 삼성전자 반도체 사업부에서 엔지니어 세 명이 한 달 사이 세 차례에 걸쳐 ChatGPT에 소스코드, 내부 회의록, 하드웨어 설계 데이터를 입력했습니다. 디버깅을 하려고, 회의를 요약하려고, 아주 일상적인 이유였습니다. 결과는 삼성 전사 AI 사용 긴급 제한 조치였습니다. "우리 같은 작은 회사는 해커가 관심도 없을 거야." 그렇게 생각하셨다면, 2025년에 일어난 일을 보셔야 합니다. 보안 연구원들이 다크웹에서 발견한 ChatGPT 로그인 정보가 22만 5천 건이었습니다. ChatGPT가 해킹당한 게 아닙니다. 직원 PC에 감염된 인포스틸러 멀웨어가 로그인 정보를 훔쳤고, 그 계정에 저장된 모든 대화 이력이
7일 전


AI 시대, 디자이너는 무엇을 해야 하는가? 2/5
DESIGNER IS NOT DEAD 제작자에서 시스템 설계자로 AI가 디자인을 대신하는 시대가 아니라, 디자이너가 AI가 따라야 할 기준을 설계하는 시대다. AI가 화면과 문서를 빠르게 만들수록 디자이너의 역할은 더 중요해집니다. 이제 디자이너는 모든 결과물을 직접 만드는 사람이 아니라, AI와 조직이 따라야 할 브랜드 기준과 디자인 시스템을 설계하는 사람이 되어야 합니다. 요약 (Executive Summary) AI가 디자인 생산 속도를 근본적으로 바꾸면서 디자이너의 역할도 함께 바뀌고 있습니다. 이제 화면, 문서, 슬라이드, 프로토타입의 초안은 더 이상 디자이너만의 영역이 아닙니다. 기획자도 AI로 화면을 만들고, 마케터도 슬라이드를 만들며, 영업팀도 제안서를 만듭니다. 겉으로 보면 생산성이 올라간 것처럼 보입니다. 하지만 실제로는 새로운 문제가 생깁니다. 결과물은 많아졌는데 기준은 없고, 속도는 빨라졌는데 브랜드는 흔들립니다. 디자인팀은
5월 7일


사례 연구 : 개인화 AI 미팅노트 시스템 구축기
요약 (Executive Summary) AI를 활용한 미팅 요약은 이미 많은 기업에서 활용하고 있는 기능입니다. TecAce Software 역시 다양한 솔루션으로 미팅 요약을 받아 생산성을 높여왔습니다. 그러나 '누구에게나 동일한 요약', '맥락이 끊긴 단편적인 요약'이라는 한계를 극복하기 위해 내부적으로 개인화 AI 미팅노트 시스템을 자체 개발했습니다. Speaker 인식, Ontology 기반 관계 정의, Project 폴더 컨텍스트 기능을 통해 미팅노트는 단순 기록을 넘어 의사결정을 돕는 인텔리전스 도구로 진화했습니다. 도전 과제 (The Challenge) 미팅 녹음을 AI로 요약하는 것은 이제 어렵지 않습니다. 하지만 실제 업무에서 쓰다 보면 금방 한계에 부딪힙니다. 핵심 문제점: 획일적인 요약 : 보고하는 사람과 보고받는 사람이 같은 요약본을 받는 것은 비효율적입니다. 임원은 의사결정에 필요한 핵심만, 실무자는 자신에게 할당된 액션
5월 1일


사례 연구 : 분산된 5개 시스템을 하나로 — AI·Multi-Agent 기반 ERP & 전략 시스템 구축기
요약 (Executive Summary) 본 케이스 스터디는 매출·비용·현금흐름 데이터가 Excel, ERP, SharePoint 등 5개 시스템에 분산돼 있어 정확한 현황 파악과 신속한 의사결정이 어려웠던 TecAce Software의 내부 문제를 해결한 사례를 소개합니다. AI 솔루션 전문 기업으로서 자체 기술을 내부 문제에 직접 적용했습니다. Vibe Coding 방식으로 빠르게 프로토타이핑하고, Multi-Agent 아키텍처를 통해 현금흐름 분석·매출 예측·What-if 시뮬레이션을 전담 AI 에이전트가 자율적으로 처리하는 시스템을 구축했습니다. 그 결과, 데이터 입력 포인트를 60% 이상 줄이고 실시간 비즈니스 인사이트를 확보하는 데 성공했습니다. 도전 과제 (The Challenge) TecAce Software가 성장을 거듭하면서 업무를 지원하는 도구도 다양해졌습니다. 그러나 이 다양성이 오히려 발목을 잡기 시작했습니다. 매출·비용·현
4월 30일


갤럭시 A 시리즈 Gemma3 파이프라인 벤치마크
왜 이 테스트가 중요한가 SoC 세대 하나가 추론 속도를 29% 바꿉니다. 미드레인지 폰에서 Gemma3를 실용적으로 쓸 수 있는지, 숫자로 확인했습니다. 온디바이스 LLM을 보급형 스마트폰에 탑재할 때 가장 큰 질문은 "어떤 칩셋에서 실용적인 속도가 나오느냐"입니다. 갤럭시 A16·A26·A36·A56 4종에 gemma-3-270m-it-int8 모델을 MediaPipe CPU 백엔드로 구동하고, 25개 프롬프트에 대한 추론 속도·메모리·정확도를 측정했습니다. 추가로 병렬(4대 동시) vs 직렬(순차, 2회 반복) 두 방식으로 테스트해 실행 방식이 결과에 영향을 주는지도 검증했습니다. 결론: 병렬/직렬 차이는 없었고, SoC 세대 차이는 컸습니다. 테스트 환경 4종 디바이스 모두 동일한 모델 파일과 MediaPipe 엔진을 사용했습니다. 변수는 SoC와 Android 버전뿐입니다. 디바이스 모델명 SoC Android CPU Max Heap
4월 14일


Gemma 3n vs Gemma 4: Galaxy S25 Ultra 실측 벤치마크 가이드
이미지를 클릭하시면 리포트를 확인하실 수 있습니다. Google의 Gemma 시리즈가 3n에서 4세대로 업그레이드됐습니다. 새 모델이 나올 때마다 가장 먼저 드는 질문은 하나입니다. “실제 기기에서 얼마나 빠를까?” TecAce는 그 질문에 직접 답하기 위해 Samsung Galaxy S25 Ultra에서 두 세대를 동일한 조건으로 테스트했습니다. 이번 테스트는 llama.cpp CPU 추론 엔진을 기준으로, Gemma 3n E2B Q8_0(이전 세대 베이스라인)과 Gemma 4 E2B의 세 가지 양자화 변형(Q3_K_M, Q4_K_M, Q8_0)을 총 네 가지 구성으로 비교했습니다. 단순 속도 측정이 아닌 요약, 구조화 출력, 코드 생성, 수학 연산 등 실제 앱 시나리오 기반의 태스크별 지연 시간과 정확도까지 함께 측정했습니다. 결론부터 말하면: Gemma 4는 대부분의 영역에서 확실한 세대 발전을 보여줍니다. 하지만 양자화 선택에 따라 수
4월 14일


SAMSUNG Galaxy S25 vs S26 온디바이스 AI 벤치마크
Galaxy S25 vs S26: 온디바이스 AI 성능 반전 결과! (Snapdragon 8 Elite Gen 1 vs Gen 2) 최신 스마트폰의 AI 성능, 숫자가 높다고 무조건 빠를까요? TecAce에서 진행한 실측 데이터를 통해 Galaxy S25와 S26의 온디바이스 LLM 성능을 전격 비교해 보았습니다. 테스트 개요 비교 기기: Galaxy S25 (Snapdragon 8 Elite) vs Galaxy S26 (Snapdragon 8 Elite Gen 2) 테스트 모델: Gemma3 1B (INT4): 반응 속도 중심의 초경량 모델 Qwen2.5 1.5B (Q8): 높은 정밀도의 복잡한 추론 모델 테스트 규모: 총 108회 테스트 (27종 프롬프트, 11개 카테고리 수행) 한눈에 보는 핵심 성능 지표 단순히 S26이 모든 면에서 우세할 것이라는 예상과 달리, 두 기기는 서로 다른 강점을 보였습니다. 지표 (Gemma3 1B 기준) Gal
3월 27일
![[On-Device AI Chatbot] 10편: 온디바이스 AI의 미래와 TecAce의 로드맵 (Conclusion)](https://static.wixstatic.com/media/2ea07e_d1771a9889764093a8c855756693ba51~mv2.png/v1/fill/w_457,h_250,fp_0.50_0.50,q_35,blur_30,enc_avif,quality_auto/2ea07e_d1771a9889764093a8c855756693ba51~mv2.webp)
![[On-Device AI Chatbot] 10편: 온디바이스 AI의 미래와 TecAce의 로드맵 (Conclusion)](https://static.wixstatic.com/media/2ea07e_d1771a9889764093a8c855756693ba51~mv2.png/v1/fill/w_300,h_164,fp_0.50_0.50,q_95,enc_avif,quality_auto/2ea07e_d1771a9889764093a8c855756693ba51~mv2.webp)
[On-Device AI Chatbot] 10편: 온디바이스 AI의 미래와 TecAce의 로드맵 (Conclusion)
온디바이스 AI의 미래와 TecAce의 로드맵 지난 9편의 연재를 통해 우리는 클라우드 비용과 보안 문제의 해결책인 '온디바이스 AI'의 개념부터, 경량화 모델(SLM)의 선정과 양자화, 오프라인 STT/TTS의 통합, 로컬 RAG 구축, 그리고 AI SuperVision을 활용한 깐깐한 품질 검증과 하드웨어 성능 최적화까지 챗봇 개발의 모든 여정을 살펴보았습니다. 대장정의 마지막인 이번 10편에서는 TecAce 팀이 이번 프로젝트를 통해 얻은 값진 교훈(Lessons Learned)을 돌아보고, 단순한 대화형 챗봇을 넘어 스스로 사고하고 행동하는 'Agentic AI(자율 행동 AI)' 로 진화하기 위한 향후 로드맵을 공유하며 시리즈를 마무리하고자 합니다. AI Supervision Main Dashboard 1. Lessons Learned: 프로젝트를 통해 얻은 세 가지 교훈 SLM은 '장난감'이 아니다: 목적에 맞는 최적화의 힘 초기에
3월 2일
![[On-Device AI Chatbot] 9편: 성능 한계 도전: 발열, 배터리, 그리고 응답 속도](https://static.wixstatic.com/media/2ea07e_826bc45db874477090ea018335b34059~mv2.png/v1/fill/w_457,h_250,fp_0.50_0.50,q_35,blur_30,enc_avif,quality_auto/2ea07e_826bc45db874477090ea018335b34059~mv2.webp)
![[On-Device AI Chatbot] 9편: 성능 한계 도전: 발열, 배터리, 그리고 응답 속도](https://static.wixstatic.com/media/2ea07e_826bc45db874477090ea018335b34059~mv2.png/v1/fill/w_300,h_164,fp_0.50_0.50,q_95,enc_avif,quality_auto/2ea07e_826bc45db874477090ea018335b34059~mv2.webp)
[On-Device AI Chatbot] 9편: 성능 한계 도전: 발열, 배터리, 그리고 응답 속도
성능 한계 도전 발열, 배터리, 그리고 응답 속도 지난 8편에서는 'AI SuperVision'을 통해 챗봇의 환각(Hallucination)을 잡아내고 답변의 품질을 높이는 과정을 공유했습니다. 모델이 똑똑해지고 정확해지는 것은 기쁜 일이지만, 실제 스마트폰(Galaxy S25 FE 등) 환경에서 이를 구동할 때 우리는 매우 물리적이고 현실적인 벽에 부딪히게 됩니다. 바로 발열(Thermal), 배터리 소모, 그리고 응답 속도(Latency) 의 한계입니다. 클라우드 데이터센터의 무한한 자원과 달리, 한 손에 들어오는 모바일 기기는 전력과 냉각 능력이 극도로 제한되어 있습니다. 이번 9편에서는 TecAce 팀이 진정한 온디바이스 AI 구현을 위해 이 물리적 제약들과 어떻게 타협하고 최적화했는지 생생한 성능 벤치마크 과정과 인사이트를 공유합니다. 1. 모바일 AI의 3대 체감 성능 지표: TTFT, TPS, IPW 사용자가 챗봇을 사용할 때
2월 26일
![[On-Device AI Chatbot] 8편: 환각(Hallucination) 잡기: SuperVision 테스트 결과 분석](https://static.wixstatic.com/media/2ea07e_69fba1e933354148a97a50bbfb2f2dcb~mv2.png/v1/fill/w_457,h_250,fp_0.50_0.50,q_35,blur_30,enc_avif,quality_auto/2ea07e_69fba1e933354148a97a50bbfb2f2dcb~mv2.webp)
![[On-Device AI Chatbot] 8편: 환각(Hallucination) 잡기: SuperVision 테스트 결과 분석](https://static.wixstatic.com/media/2ea07e_69fba1e933354148a97a50bbfb2f2dcb~mv2.png/v1/fill/w_300,h_164,fp_0.50_0.50,q_95,enc_avif,quality_auto/2ea07e_69fba1e933354148a97a50bbfb2f2dcb~mv2.webp)
[On-Device AI Chatbot] 8편: 환각(Hallucination) 잡기: SuperVision 테스트 결과 분석
8편: 환각(Hallucination) 잡기 SuperVision 테스트 결과 분석 지난 7편에서는 스마트폰 내부의 챗봇 앱과 PC의 AI SuperVision 서버를 연결하여, '질문 주입부터 답변 추출, 자동 채점'까지 이어지는 테스트 파이프라인을 구축했습니다. 이제 수십 개의 테스트 케이스를 자동으로 돌려볼 수 있는 환경이 마련되었습니다. 그렇다면 과연 우리의 온디바이스 SLM(Gemma-2B 기반)은 이 가혹한 심판관 앞에서 어떤 성적표를 받았을까요? 이번 8편에서는 실제 다중 컨텍스트(Multi-Context) 환경에서 진행된 자동화 테스트의 구체적인 결과와, 발견된 환각(Hallucination)의 유형, 그리고 이를 개선하기 위한 인사이트를 공유합니다. 1. 다중 컨텍스트(Multi-Context) 기반 테스트 시나리오 TecAce 팀은 챗봇의 실무 투입 가능성을 검증하기 위해 완전히 다른 도메인의 4가지 사내/제품 문서(Con
2월 25일
![[On-Device AI Chatbot] 7편: SuperVision 구축기: 자동화된 챗봇 테스트 파이프라인](https://static.wixstatic.com/media/2ea07e_22b8a8781b1743cb8aaa018b782ab4da~mv2.png/v1/fill/w_457,h_250,fp_0.50_0.50,q_35,blur_30,enc_avif,quality_auto/2ea07e_22b8a8781b1743cb8aaa018b782ab4da~mv2.webp)
![[On-Device AI Chatbot] 7편: SuperVision 구축기: 자동화된 챗봇 테스트 파이프라인](https://static.wixstatic.com/media/2ea07e_22b8a8781b1743cb8aaa018b782ab4da~mv2.png/v1/fill/w_300,h_164,fp_0.50_0.50,q_95,enc_avif,quality_auto/2ea07e_22b8a8781b1743cb8aaa018b782ab4da~mv2.webp)
[On-Device AI Chatbot] 7편: SuperVision 구축기: 자동화된 챗봇 테스트 파이프라인
SuperVision 구축기 자동화된 챗봇 테스트 파이프라인 지난 6편에서는 생성형 AI의 고질적인 환각(Hallucination) 현상을 객관적으로 평가하기 위해 Testworks의 'AI SuperVision' 도구를 도입한 배경을 설명했습니다. 하지만 이 도구를 실제 우리 프로젝트에 적용하기 위해서는 한 가지 큰 기술적 장벽을 넘어야 했습니다. 바로 우리의 LLM 챗봇은 스마트폰 내부(On-device) 에서 오프라인으로 구동되는 반면, 평가를 수행할 AI SuperVision 시스템은 PC 및 웹 서버(Host) 환경에 존재한다는 점입니다. 수십, 수백 개의 테스트 케이스를 사람이 직접 스마트폰에 타이핑하고 결과를 PC로 옮겨 적는 것은 불가능에 가깝습니다. 이번 7편에서는 이 물리적인 간극을 메우고, 질문 입력부터 답변 추출, 그리고 AI 검증까지의 전 과정을 5분 이내로 단축시킨 자동화된 테스트 파이프라인 구축 과정 을 상세히 공
2월 24일
![[On-Device AI Chatbot] 6편: AI 품질, 어떻게 검증할까? (Introduction to SuperVision)](https://static.wixstatic.com/media/2ea07e_38184c3eec5940288ae0fcc2e73f6e2d~mv2.png/v1/fill/w_457,h_250,fp_0.50_0.50,q_35,blur_30,enc_avif,quality_auto/2ea07e_38184c3eec5940288ae0fcc2e73f6e2d~mv2.webp)
![[On-Device AI Chatbot] 6편: AI 품질, 어떻게 검증할까? (Introduction to SuperVision)](https://static.wixstatic.com/media/2ea07e_38184c3eec5940288ae0fcc2e73f6e2d~mv2.png/v1/fill/w_300,h_164,fp_0.50_0.50,q_95,enc_avif,quality_auto/2ea07e_38184c3eec5940288ae0fcc2e73f6e2d~mv2.webp)
[On-Device AI Chatbot] 6편: AI 품질, 어떻게 검증할까? (Introduction to SuperVision)
AI 품질, 어떻게 검증할까? (Introduction to SuperVision ) 지난 5편에서는 로컬 RAG(검색 증강 생성)와 멀티 컨텍스트 스위칭을 통해 온디바이스 챗봇에 우리 회사만의 지식을 주입하는 과정을 살펴보았습니다. 하지만 챗봇이 지식을 얻었다고 해서 모든 문제가 해결되는 것은 아닙니다. "이 챗봇이 엉뚱한 대답을 꾸며내지 않고, '진짜 문서에 있는 내용만' 진실하게 말하고 있는지 어떻게 확신할 수 있을까요?" 이번 6편에서는 생성형 AI의 고질적인 문제인 '환각(Hallucination)' 현상과, 챗봇의 품질을 객관적으로 평가하기 위해 TecAce가 도입한 자동화 검증 도구 'AI SuperVision(에이아이 수퍼비전)' 에 대해 소개합니다. 1. 기존 테스트의 한계와 환각(Hallucination)의 위협 전통적인 소프트웨어 개발에서는 예상되는 결과값과 실제 결과값을 비교하는 단위 테스트(Unit Test)를 통해
2월 23일
![[On-Device AI Chatbot] 4편: 챗봇의 귀와 입: 온디바이스 STT/TTS 통합기](https://static.wixstatic.com/media/2ea07e_f9b2f825229d4e4b8e86be78ac4fd73b~mv2.png/v1/fill/w_457,h_250,fp_0.50_0.50,q_35,blur_30,enc_avif,quality_auto/2ea07e_f9b2f825229d4e4b8e86be78ac4fd73b~mv2.webp)
![[On-Device AI Chatbot] 4편: 챗봇의 귀와 입: 온디바이스 STT/TTS 통합기](https://static.wixstatic.com/media/2ea07e_f9b2f825229d4e4b8e86be78ac4fd73b~mv2.png/v1/fill/w_300,h_164,fp_0.50_0.50,q_95,enc_avif,quality_auto/2ea07e_f9b2f825229d4e4b8e86be78ac4fd73b~mv2.webp)
[On-Device AI Chatbot] 4편: 챗봇의 귀와 입: 온디바이스 STT/TTS 통합기
챗봇의 귀와 입 온디바이스 STT/TTS 통합기 지난 3편에서는 거대 언어 모델을 스마트폰의 제한된 리소스에 맞게 압축하고, 모바일 NPU를 활용해 추론 속도를 끌어올리는 최적화 과정을 살펴보았습니다. 빠르고 똑똑하게 사고하는 '뇌(Brain)'를 기기 내부에 탑재하는 데 성공했다면, 이제는 사용자와 자연스럽게 상호작용할 수 있는 '귀와 입' 을 달아줄 차례입니다. 모바일 환경에서 매번 긴 텍스트를 타이핑하는 것은 사용자 경험(UX) 측면에서 큰 제약이 됩니다. 따라서 TecAce 팀은 완벽한 오프라인 환경을 유지하면서도 음성으로 대화할 수 있는 멀티모달 인터페이스를 구현하기 위해 온디바이스 STT(음성 인식)와 TTS(음성 합성) 통합 작업에 착수했습니다. 1. 챗봇의 귀: 오프라인 STT (Speech-to-Text) 도입 보안과 프라이버시가 핵심인 이번 프로젝트의 특성상, 사용자의 음성 데이터 역시 클라우드 서버로 전송되어서는 안 됩니다
2월 20일
![[On-Device AI Chatbot] 5편: 문맥을 이해하는 챗봇: 로컬 RAG와 멀티 컨텍스트 구현](https://static.wixstatic.com/media/2ea07e_42172a5ac3454535a81160a2408d0b5b~mv2.png/v1/fill/w_457,h_250,fp_0.50_0.50,q_35,blur_30,enc_avif,quality_auto/2ea07e_42172a5ac3454535a81160a2408d0b5b~mv2.webp)
![[On-Device AI Chatbot] 5편: 문맥을 이해하는 챗봇: 로컬 RAG와 멀티 컨텍스트 구현](https://static.wixstatic.com/media/2ea07e_42172a5ac3454535a81160a2408d0b5b~mv2.png/v1/fill/w_300,h_164,fp_0.50_0.50,q_95,enc_avif,quality_auto/2ea07e_42172a5ac3454535a81160a2408d0b5b~mv2.webp)
[On-Device AI Chatbot] 5편: 문맥을 이해하는 챗봇: 로컬 RAG와 멀티 컨텍스트 구현
문맥을 이해하는 챗봇 로컬 RAG와 멀티 컨텍스트 구현 지난 4편에서는 기기 내부에서 동작하는 STT와 TTS를 연동하여 챗봇에게 '눈과 귀와 입'을 달아주었습니다. 하지만 챗봇이 아무리 사람의 말을 잘 알아듣고 자연스럽게 대답하더라도, 우리 회사의 사내 규정이나 특정 제품의 매뉴얼 등 '도메인 지식'을 모른다면 업무용 비서로서는 반쪽짜리에 불과합니다. 소형 언어 모델(SLM)은 크기가 작은 만큼 모든 사실적 지식을 파라미터 내부에 기억(Memorization)하는 데 한계가 있습니다. 이번 5편에서는 외부 인터넷 연결 없이 오직 스마트폰 내부에 저장된 문서를 읽고 답변하는 로컬 RAG(검색 증강 생성) 기술과, 다양한 대화 주제를 넘나드는 멀티 컨텍스트 스위칭(Multi-Context Switching) 의 구현 과정을 상세히 다뤄보겠습니다. 1. 내 폰 안의 지식 창고: 온디바이스 RAG 도입 보안 지침 때문에 외부 클라우드로 사내 문서
2월 19일
![[On-Device AI Chatbot] 1편: 왜 지금 '온디바이스 AI'인가? (Overview)](https://static.wixstatic.com/media/2ea07e_fe141ac84a2c46b8b5daf9987efc1ea7~mv2.png/v1/fill/w_457,h_250,fp_0.50_0.50,q_35,blur_30,enc_avif,quality_auto/2ea07e_fe141ac84a2c46b8b5daf9987efc1ea7~mv2.webp)
![[On-Device AI Chatbot] 1편: 왜 지금 '온디바이스 AI'인가? (Overview)](https://static.wixstatic.com/media/2ea07e_fe141ac84a2c46b8b5daf9987efc1ea7~mv2.png/v1/fill/w_300,h_164,fp_0.50_0.50,q_95,enc_avif,quality_auto/2ea07e_fe141ac84a2c46b8b5daf9987efc1ea7~mv2.webp)
[On-Device AI Chatbot] 1편: 왜 지금 '온디바이스 AI'인가? (Overview)
왜 지금 '온디바이스 AI'인가? 최근 몇 년간 챗GPT를 필두로 한 생성형 AI는 우리의 업무와 일상을 혁신적으로 바꾸어 놓았습니다. 하지만 이처럼 강력한 AI 서비스들의 이면에는 '클라우드 의존성'이라는 공통된 한계가 존재합니다. 사용자의 질문이 클라우드 서버로 전송되고, 거대한 데이터센터에서 연산된 결과를 다시 기기로 받아보는 구조는 필연적으로 데이터 유출의 위험과 네트워크 지연, 막대한 서버 유지 비용을 발생시킵니다. 이러한 한계를 극복하고 AI의 주도권을 기기 내부로 가져오는 기술, 바로 '온디바이스 AI(On-Device AI)'가 새로운 패러다임으로 급부상하고 있습니다. 이번 1편에서는 클라우드에서 엣지(Edge)로 AI 트렌드가 전환되는 이유와 함께, TecAce가 왜 자체적인 온디바이스 AI 챗봇 개발 프로젝트에 뛰어들게 되었는지 그 배경을 소개합니다. 온디바이스 AI가 가져온 3가지 혁신 단순히 '인터넷 없이 동작하는 챗봇'을
2월 16일
![[On-Device AI Chatbot] 3편: 모바일 AI의 핵심 기술: 양자화(Quantization)와 NPU 최적화](https://static.wixstatic.com/media/2ea07e_08ed983f9efb45fe9129e06967a91163~mv2.png/v1/fill/w_457,h_250,fp_0.50_0.50,q_35,blur_30,enc_avif,quality_auto/2ea07e_08ed983f9efb45fe9129e06967a91163~mv2.webp)
![[On-Device AI Chatbot] 3편: 모바일 AI의 핵심 기술: 양자화(Quantization)와 NPU 최적화](https://static.wixstatic.com/media/2ea07e_08ed983f9efb45fe9129e06967a91163~mv2.png/v1/fill/w_300,h_164,fp_0.50_0.50,q_95,enc_avif,quality_auto/2ea07e_08ed983f9efb45fe9129e06967a91163~mv2.webp)
[On-Device AI Chatbot] 3편: 모바일 AI의 핵심 기술: 양자화(Quantization)와 NPU 최적화
Core Technologies of Mobile AI Quantization and NPU Optimization 지난 2편에서는 TecAce 프로젝트에 적합한 소형 언어 모델(SLM)로 Gemma-2B를 선정하고, 스마트폰의 제한된 리소스 환경에서 CPU와 GPU를 활용해 성능을 테스트한 과정을 공유했습니다. 하지만 테스트 결과, 초기 구동 지연과 메모리 초과(Out of Memory)라는 현실적인 벽에 부딪혔습니다. 데이터센터의 GPU 랙이 아닌, 한 손에 쥐어지는 모바일 기기에서 LLM을 실시간으로 구동하려면 하드웨어 가속기(NPU)를 극한으로 활용하고 모델의 크기를 대폭 줄이는 '기술적 다이어트'가 필수적 입니다. 이번 3편에서는 온디바이스 AI 구현의 핵심 기술인 양자화(Quantization) 와 NPU 최적화 및 안드로이드 통합 과정 을 깊이 있게 살펴보겠습니다. 1. 거대 모델 압축의 마법: 양자화(Quantization) 양자
2월 15일
![[On-Device AI Chatbot] 2편: 내 손안의 거대언어모델: 모바일용 SLM(Small Language Model) 선정 전략](https://static.wixstatic.com/media/2ea07e_7ef19534e8cc4690850ed424d904dee6~mv2.png/v1/fill/w_457,h_250,fp_0.50_0.50,q_35,blur_30,enc_avif,quality_auto/2ea07e_7ef19534e8cc4690850ed424d904dee6~mv2.webp)
![[On-Device AI Chatbot] 2편: 내 손안의 거대언어모델: 모바일용 SLM(Small Language Model) 선정 전략](https://static.wixstatic.com/media/2ea07e_7ef19534e8cc4690850ed424d904dee6~mv2.png/v1/fill/w_300,h_164,fp_0.50_0.50,q_95,enc_avif,quality_auto/2ea07e_7ef19534e8cc4690850ed424d904dee6~mv2.webp)
[On-Device AI Chatbot] 2편: 내 손안의 거대언어모델: 모바일용 SLM(Small Language Model) 선정 전략
내 손안의 거대언어모델 모바일용 SLM(Small Language Model) 선정 전략 1편에서는 클라우드 비용과 데이터 보안 문제를 해결하기 위해 '온디바이스 AI'가 필수적인 패러다임으로 자리 잡고 있음을 확인했습니다. 그렇다면 데이터센터의 거대한 GPU 랙에서나 돌아갈 법한 수백억, 수천억 개 파라미터의 거대 언어 모델(LLM)을 어떻게 스마트폰이라는 작은 기기 안에 넣을 수 있을까요? 그 해답은 바로 '소형 언어 모델(Small Language Model, SLM)' 에 있습니다. 이번 2편에서는 2026년 현재 가장 주목받는 SLM들을 비교해 보고, TecAce가 실제 프로젝트를 위해 어떤 기준으로 모델을 테스트하고 최종 선정했는지 생생한 과정을 공유합니다. 2026년, SLM 생태계의 춘추전국시대 SLM은 일반적으로 100억 개(10B) 미만의 파라미터를 가지며, 스마트폰, 엣지 디바이스, 심지어 브라우저에서도 효율적으로 동작하도록
2월 12일
![[AX Pro] ⑤ AI와 함께 걷는 법을 배우다](https://static.wixstatic.com/media/2ea07e_bc6f4a1789f74859bc1fc9663f9eb266~mv2.jpg/v1/fill/w_472,h_250,fp_0.50_0.50,q_30,blur_30,enc_avif,quality_auto/2ea07e_bc6f4a1789f74859bc1fc9663f9eb266~mv2.webp)
![[AX Pro] ⑤ AI와 함께 걷는 법을 배우다](https://static.wixstatic.com/media/2ea07e_bc6f4a1789f74859bc1fc9663f9eb266~mv2.jpg/v1/fill/w_300,h_159,fp_0.50_0.50,q_90,enc_avif,quality_auto/2ea07e_bc6f4a1789f74859bc1fc9663f9eb266~mv2.webp)
[AX Pro] ⑤ AI와 함께 걷는 법을 배우다
혼자가 아닌 '함께' 일한다는 것 지난 4편의 글을 통해 AX Pro의 도입부터 실전 운영까지의 과정을 가감 없이 공유해 드렸습니다. 브랜드 관리자이자 PO로서 수많은 툴을 다뤄봤지만, AX Pro만큼 '인간과 AI의 협업'이라는 본질에 집중한 플랫폼은 드물었습니다. 단순히 답변을 잘하는 기계를 들인 것이 아니라, 우리 팀의 철학을 이해하고 전문가의 손길로 다듬어지는 '성장형 동료' 를 얻은 기분입니다. AX Pro 동작 화면 내가 꼽은 AX Pro의 세 가지 결정적 순간 첫 번째, 5분의 마법 : 복잡한 인프라 고민 없이 'Create New Group' 클릭 한 번으로 비즈니스를 시작할 수 있었던 그 순간의 짜릿함입니다. 두 번째, 89%의 신뢰 : Performance Radar 를 통해 AI의 답변을 수치화하고, Admin Feedback 으로 그 오차를 직접 좁혀나갈 때 느꼈던 통제감입니다. 세 번째, 보안의 안도감 : 기업 내부 데
2월 4일
SECURE YOUR BUSINESS TODAY
bottom of page