top of page

Schedule a Demo

최신 기술 콘텐츠

All Posts
블로그
뉴스
케이스스터디
AX Pro
AI Supervision

[On-Device AI Chatbot] 7편: SuperVision 구축기: 자동화된 챗봇 테스트 파이프라인

[On-Device AI Chatbot] 7편: SuperVision 구축기: 자동화된 챗봇 테스트 파이프라인

[On-Device AI Chatbot] 7편: SuperVision 구축기: 자동화된 챗봇 테스트 파이프라인

SuperVision 구축기 자동화된 챗봇 테스트 파이프라인 지난 6편에서는 생성형 AI의 고질적인 환각(Hallucination) 현상을 객관적으로 평가하기 위해 Testworks의 'AI SuperVision' 도구를 도입한 배경을 설명했습니다. 하지만 이 도구를 실제 우리 프로젝트에 적용하기 위해서는 한 가지 큰 기술적 장벽을 넘어야 했습니다. 바로 우리의 LLM 챗봇은 스마트폰 내부(On-device) 에서 오프라인으로 구동되는 반면, 평가를 수행할 AI SuperVision 시스템은 PC 및 웹 서버(Host) 환경에 존재한다는 점입니다. 수십, 수백 개의 테스트 케이스를 사람이 직접 스마트폰에 타이핑하고 결과를 PC로 옮겨 적는 것은 불가능에 가깝습니다. 이번 7편에서는 이 물리적인 간극을 메우고, 질문 입력부터 답변 추출, 그리고 AI 검증까지의 전 과정을 5분 이내로 단축시킨 자동화된 테스트 파이프라인 구축 과정 을 상세히 공

4시간 전

[On-Device AI Chatbot] 5편: 문맥을 이해하는 챗봇: 로컬 RAG와 멀티 컨텍스트 구현

[On-Device AI Chatbot] 5편: 문맥을 이해하는 챗봇: 로컬 RAG와 멀티 컨텍스트 구현

[On-Device AI Chatbot] 5편: 문맥을 이해하는 챗봇: 로컬 RAG와 멀티 컨텍스트 구현

문맥을 이해하는 챗봇 로컬 RAG와 멀티 컨텍스트 구현 지난 4편에서는 기기 내부에서 동작하는 STT와 TTS를 연동하여 챗봇에게 '눈과 귀와 입'을 달아주었습니다. 하지만 챗봇이 아무리 사람의 말을 잘 알아듣고 자연스럽게 대답하더라도, 우리 회사의 사내 규정이나 특정 제품의 매뉴얼 등 '도메인 지식'을 모른다면 업무용 비서로서는 반쪽짜리에 불과합니다. 소형 언어 모델(SLM)은 크기가 작은 만큼 모든 사실적 지식을 파라미터 내부에 기억(Memorization)하는 데 한계가 있습니다. 이번 5편에서는 외부 인터넷 연결 없이 오직 스마트폰 내부에 저장된 문서를 읽고 답변하는 로컬 RAG(검색 증강 생성) 기술과, 다양한 대화 주제를 넘나드는 멀티 컨텍스트 스위칭(Multi-Context Switching) 의 구현 과정을 상세히 다뤄보겠습니다. 1. 내 폰 안의 지식 창고: 온디바이스 RAG 도입 보안 지침 때문에 외부 클라우드로 사내 문서

4시간 전

[On-Device AI Chatbot] 4편: 챗봇의 귀와 입: 온디바이스 STT/TTS 통합기

[On-Device AI Chatbot] 4편: 챗봇의 귀와 입: 온디바이스 STT/TTS 통합기

[On-Device AI Chatbot] 4편: 챗봇의 귀와 입: 온디바이스 STT/TTS 통합기

챗봇의 귀와 입 온디바이스 STT/TTS 통합기 지난 3편에서는 거대 언어 모델을 스마트폰의 제한된 리소스에 맞게 압축하고, 모바일 NPU를 활용해 추론 속도를 끌어올리는 최적화 과정을 살펴보았습니다. 빠르고 똑똑하게 사고하는 '뇌(Brain)'를 기기 내부에 탑재하는 데 성공했다면, 이제는 사용자와 자연스럽게 상호작용할 수 있는 '귀와 입' 을 달아줄 차례입니다. 모바일 환경에서 매번 긴 텍스트를 타이핑하는 것은 사용자 경험(UX) 측면에서 큰 제약이 됩니다. 따라서 TecAce 팀은 완벽한 오프라인 환경을 유지하면서도 음성으로 대화할 수 있는 멀티모달 인터페이스를 구현하기 위해 온디바이스 STT(음성 인식)와 TTS(음성 합성) 통합 작업에 착수했습니다. 1. 챗봇의 귀: 오프라인 STT (Speech-to-Text) 도입 보안과 프라이버시가 핵심인 이번 프로젝트의 특성상, 사용자의 음성 데이터 역시 클라우드 서버로 전송되어서는 안 됩니다

5시간 전

[On-Device AI Chatbot] 3편: 모바일 AI의 핵심 기술: 양자화(Quantization)와 NPU 최적화

[On-Device AI Chatbot] 3편: 모바일 AI의 핵심 기술: 양자화(Quantization)와 NPU 최적화

[On-Device AI Chatbot] 3편: 모바일 AI의 핵심 기술: 양자화(Quantization)와 NPU 최적화

Core Technologies of Mobile AI Quantization and NPU Optimization 지난 2편에서는 TecAce 프로젝트에 적합한 소형 언어 모델(SLM)로 Gemma-2B를 선정하고, 스마트폰의 제한된 리소스 환경에서 CPU와 GPU를 활용해 성능을 테스트한 과정을 공유했습니다. 하지만 테스트 결과, 초기 구동 지연과 메모리 초과(Out of Memory)라는 현실적인 벽에 부딪혔습니다. 데이터센터의 GPU 랙이 아닌, 한 손에 쥐어지는 모바일 기기에서 LLM을 실시간으로 구동하려면 하드웨어 가속기(NPU)를 극한으로 활용하고 모델의 크기를 대폭 줄이는 '기술적 다이어트'가 필수적 입니다. 이번 3편에서는 온디바이스 AI 구현의 핵심 기술인 양자화(Quantization) 와 NPU 최적화 및 안드로이드 통합 과정 을 깊이 있게 살펴보겠습니다. 1. 거대 모델 압축의 마법: 양자화(Quantization) 양자

5시간 전

[On-Device AI Chatbot] 2편: 내 손안의 거대언어모델: 모바일용 SLM(Small Language Model) 선정 전략

[On-Device AI Chatbot] 2편: 내 손안의 거대언어모델: 모바일용 SLM(Small Language Model) 선정 전략

[On-Device AI Chatbot] 2편: 내 손안의 거대언어모델: 모바일용 SLM(Small Language Model) 선정 전략

내 손안의 거대언어모델 모바일용 SLM(Small Language Model) 선정 전략 1편에서는 클라우드 비용과 데이터 보안 문제를 해결하기 위해 '온디바이스 AI'가 필수적인 패러다임으로 자리 잡고 있음을 확인했습니다. 그렇다면 데이터센터의 거대한 GPU 랙에서나 돌아갈 법한 수백억, 수천억 개 파라미터의 거대 언어 모델(LLM)을 어떻게 스마트폰이라는 작은 기기 안에 넣을 수 있을까요? 그 해답은 바로 '소형 언어 모델(Small Language Model, SLM)' 에 있습니다. 이번 2편에서는 2026년 현재 가장 주목받는 SLM들을 비교해 보고, TecAce가 실제 프로젝트를 위해 어떤 기준으로 모델을 테스트하고 최종 선정했는지 생생한 과정을 공유합니다. 2026년, SLM 생태계의 춘추전국시대 SLM은 일반적으로 100억 개(10B) 미만의 파라미터를 가지며, 스마트폰, 엣지 디바이스, 심지어 브라우저에서도 효율적으로 동작하도록

6시간 전

[On-Device AI Chatbot] 1편: 왜 지금 '온디바이스 AI'인가? (Overview)

[On-Device AI Chatbot] 1편: 왜 지금 '온디바이스 AI'인가? (Overview)

[On-Device AI Chatbot] 1편: 왜 지금 '온디바이스 AI'인가? (Overview)

왜 지금 '온디바이스 AI'인가? 최근 몇 년간 챗GPT를 필두로 한 생성형 AI는 우리의 업무와 일상을 혁신적으로 바꾸어 놓았습니다. 하지만 이처럼 강력한 AI 서비스들의 이면에는 '클라우드 의존성'이라는 공통된 한계가 존재합니다. 사용자의 질문이 클라우드 서버로 전송되고, 거대한 데이터센터에서 연산된 결과를 다시 기기로 받아보는 구조는 필연적으로 데이터 유출의 위험과 네트워크 지연, 막대한 서버 유지 비용을 발생시킵니다. 이러한 한계를 극복하고 AI의 주도권을 기기 내부로 가져오는 기술, 바로 '온디바이스 AI(On-Device AI)'가 새로운 패러다임으로 급부상하고 있습니다. 이번 1편에서는 클라우드에서 엣지(Edge)로 AI 트렌드가 전환되는 이유와 함께, TecAce가 왜 자체적인 온디바이스 AI 챗봇 개발 프로젝트에 뛰어들게 되었는지 그 배경을 소개합니다. 온디바이스 AI가 가져온 3가지 혁신 단순히 '인터넷 없이 동작하는 챗봇'을

7시간 전

AI Supervision 10. RAG 아키텍처의 완성: LLM 서비스와 AI Supervision의 완벽한 결합

AI Supervision 10. RAG 아키텍처의 완성: LLM 서비스와 AI Supervision의 완벽한 결합

AI Supervision 10. RAG 아키텍처의 완성: LLM 서비스와 AI Supervision의 완벽한 결합

"RAG(검색 증강 생성) 시스템을 구축했는데, 중간에 평가 도구를 어디에 끼워 넣어야 할까요?" "Vector DB에서 가져온 문서와 실제 답변을 어떻게 매칭해서 평가하나요?" LLM 서비스 개발의 마지막 퍼즐은 '아키텍처(Architecture)' 입니다. 단순히 LLM API를 호출하는 것을 넘어, 문서를 검색하고(Retrieve), 답변을 생성하고(Generate), 이를 검증하는(Evaluate) 파이프라인이 매끄럽게 연결되어야 합니다. 이번 마지막 글에서는 RAG 기반 서비스 아키텍처 속에 AI Supervision 을 어떻게 배치하고 연동해야 하는지 실전 청사진(Blueprint)을 제시합니다. 1. RAG 파이프라인과 평가의 연결 고리 RAG 시스템의 핵심은 질문(Query) + 참고 문서(Context) → 답변(Answer) 의 흐름입니다. AI Supervision은 이 흐름의 중간 혹은 끝단에 위치하여 데이터를 수집합니다

1월 19일

AI Supervision 9. 웹(Web) 밖으로 나온 AI: SDK와 모바일 통합으로 모든 환경에서 평가하기

AI Supervision 9. 웹(Web) 밖으로 나온 AI: SDK와 모바일 통합으로 모든 환경에서 평가하기

AI Supervision 9. 웹(Web) 밖으로 나온 AI: SDK와 모바일 통합으로 모든 환경에서 평가하기

"우리 AI 챗봇은 모바일 앱에서 돌아가는데, 평가는 웹에서 따로 해야 하나요?" "매번 로그를 복사해서 평가 도구에 붙여넣기 하는 게 너무 귀찮습니다." 많은 AI 평가 도구들이 웹 브라우저 상에서의 테스트에 머물러 있습니다. 하지만 실제 사용자는 웹페이지뿐만 아니라 모바일 앱, 사내 메신저(Slack), 혹은 복잡한 백엔드 워크플로우 속에서 AI를 만납니다. 개발 환경과 실제 사용 환경의 괴리는 예상치 못한 버그를 낳습니다. AI Supervision 은 강력한 SDK 와 API 를 통해 여러분의 코드가 있는 그곳이 어디든, 평가 기능을 심을 수 있도록 지원합니다. Remote Evaluation 1. 개발자의 필수품: Python SDK 연동 AI 개발의 표준 언어는 Python입니다. AI Supervision SDK 는 pip install 한 번으로 여러분의 기존 코드 베이스에 녹아듭니다. LangChain / LlamaIndex

1월 17일

TecAce, 글로벌 AI 거버넌스 및 운영 가속화를 위해 AWS Marketplace에 ‘AI Supervision Eval Studio’ 출시

TecAce, 글로벌 AI 거버넌스 및 운영 가속화를 위해 AWS Marketplace에 ‘AI Supervision Eval Studio’ 출시

TecAce, 글로벌 AI 거버넌스 및 운영 가속화를 위해 AWS Marketplace에 ‘AI Supervision Eval Studio’ 출시

AI Supervision Eval Studio 글로벌 AI 솔루션 선도 기업인 TecAce Software, LTD.(대표 Chang Han )는 자사의 올인원 AI 품질 및 거버넌스 플랫폼인 ‘AI Supervision Eval Studio’ 를 Amazon Web Services(AWS) Marketplace에 공식 출시했다고 발표했습니다. 이번 출시는 전 세계 기업들이 별도의 대규모 인프라 투자 없이도 SaaS 형태로 AI Supervision을 즉시 도입할 수 있도록 지원하며, 생성형 AI 애플리케이션의 검증 및 운영 과정에서 발생하는 복잡성을 효과적으로 간소화합니다. AI Supervision은 단순한 모니터링을 넘어, 데이터 생성부터 심층 분석까지 AI 전 생애주기를 포괄하는 종합 도구 세트를 제공합니다. 본 플랫폼은 AI 신뢰성과 ROI(투자 대비 수익)를 극대화하기 위해 다음의 다섯 가지 핵심 축을 중심으로 설계되었습니다. AI S

1월 16일

AI Supervision 8. GPT vs Claude? 더 이상 감으로 고르지 마세요: 정밀한 모델 비교와 분석

AI Supervision 8. GPT vs Claude? 더 이상 감으로 고르지 마세요: 정밀한 모델 비교와 분석

AI Supervision 8. GPT vs Claude? 더 이상 감으로 고르지 마세요: 정밀한 모델 비교와 분석

"프롬프트를 바꿨는데, 오히려 예전보다 더 이상한 답변이 나오는 것 같아요." "비용 때문에 모델을 경량화하고 싶은데, 성능이 얼마나 떨어질지 확신이 안 서요." AI 개발 과정은 끊임없는 선택의 연속 입니다. 모델을 바꿀지, 프롬프트를 수정할지, RAG 검색 설정을 변경할지 결정해야 합니다. 하지만 전체 평균 점수만 봐서는 디테일한 변화를 감지하기 어렵습니다. AI Supervision 의 상세 분석 및 비교 기능 을 통해 무엇이 바뀌었는지, 어디가 문제인지 현미경처럼 들여다보세요. Detailed Results Analysis & Comparison 1. 평균의 함정을 피하는 '상세 분석(Drill-down)' 전체 점수가 90점이라고 해서 모든 것이 완벽한 것은 아닙니다. 10개의 질문 중 1개가 0점일 수도 있습니다. AI Supervision은 평가가 끝난 후, 개별 테스트 케이스(Question-Answer) 단위로 결과를 쪼개서

1월 16일

AI Supervision 6. 'test_final_v2.xlsx'는 이제 그만! 체계적인 테스트셋(TestSet) 관리의 시작

AI Supervision 6. 'test_final_v2.xlsx'는 이제 그만! 체계적인 테스트셋(TestSet) 관리의 시작

AI Supervision 6. 'test_final_v2.xlsx'는 이제 그만! 체계적인 테스트셋(TestSet) 관리의 시작

"지난번 평가 때 썼던 그 데이터셋 어디 갔지?" "김 대리가 가지고 있는 파일이 최신 버전 맞아?" AI 모델을 개발하다 보면 평가용 데이터 파일이 여기저기 흩어지고, 파일명 뒤에 v1, final, real_final이 붙으며 버전 관리가 엉망이 되곤 합니다. 데이터가 관리되지 않으면 평가 결과도 신뢰할 수 없습니다. 이제 AI Supervision 을 통해 파일 기반의 비효율적인 업무 방식에서 벗어나, 중앙 집중형 TestSet 관리 시스템 을 구축하세요. Systematic Test Case Management 1. 테스트셋 관리, 왜 중요한가요? LLM의 성능을 정확히 비교하려면 '동일한 기준(Benchmark)' 이 필요합니다. 어제는 A 질문지로 평가하고, 오늘은 B 질문지로 평가한다면 모델이 좋아진 것인지 알 수 없습니다. 고정된 'Golden Dataset'을 체계적으로 관리해야 모델 변경(예: GPT-3.5 → GPT-4)이나

1월 14일

AI Supervision 5. 수동 테스트 케이스 작성은 이제 그만! TC Generator로 1분 만에 평가 셋 완성하기

AI Supervision 5. 수동 테스트 케이스 작성은 이제 그만! TC Generator로 1분 만에 평가 셋 완성하기

AI Supervision 5. 수동 테스트 케이스 작성은 이제 그만! TC Generator로 1분 만에 평가 셋 완성하기

"AI 모델을 평가하려면 질문과 정답(Ground Truth) 데이터셋이 필요한데, 이걸 언제 다 만들지?" 많은 AI 엔지니어와 PM들이 겪는 가장 큰 병목 구간은 모델 개발이 아니라 '평가 데이터(TestSet)'를 만드는 과정 입니다. 엑셀을 켜놓고 수백 개의 질문을 상상해서 적는 것은 비효율적일 뿐만 아니라, 사람의 편향(Bias)이 개입되어 다양한 시나리오를 커버하기 어렵게 만듭니다. 이제 AI Supervision 의 TC Generator 를 통해 테스트 케이스 생성의 고통에서 해방되세요. 1. TC Generator 란 무엇인가요? TC Generator 는 사용자가 보유한 문서(PDF, TXT 등)나 특정 주제를 입력하면, AI가 자동으로 평가에 필요한 질문(Question) 과 모범 답안(Ground Truth) 쌍을 생성해 주는 기능입니다. 이를 통해 소위 합성 데이터(Synthetic Data) 를 손쉽게 구축할 수 있

1월 13일

AI Supervision 4. 개인정보(PII) 유출 없는 안전한 AI 서비스 구축하기

AI Supervision 4. 개인정보(PII) 유출 없는 안전한 AI 서비스 구축하기

AI Supervision 4. 개인정보(PII) 유출 없는 안전한 AI 서비스 구축하기

"제 전화번호와 집 주소를 AI에게 말했는데, 이 정보 안전한가요?" 사용자는 자신의 데이터가 어떻게 처리되는지 불안해합니다. 만약 여러분의 AI 서비스가 사용자 대화 기록을 학습에 무단으로 사용하거나, 다른 사용자의 질문에 누군가의 개인정보(PII, Personally Identifiable Information)를 답변으로 내뱉는다면 어떻게 될까요? 이는 단순한 버그가 아니라, 심각한 법적 제재와 신뢰 붕괴로 이어질 수 있는 보안 사고입니다. AI Supervison Metrics 이번 글에서는 AI Supervision 을 활용해 PII 유출을 원천 차단하고, 규제(GDPR, CCPA 등)를 준수하는 안전한 AI 서비스를 만드는 방법을 소개합니다. 1. AI 시대의 새로운 개인정보 위협 기존 소프트웨어와 달리 LLM은 두 가지 측면에서 개인정보 위험이 존재합니다. 입력(Input) 리스크: 사용자가 무심코 주민등록번호, 신용카드 번호,

1월 11일

AI Supervision 3. 프롬프트 인젝션(Prompt Injection) 방어와 데이터 보안 전략

AI Supervision 3. 프롬프트 인젝션(Prompt Injection) 방어와 데이터 보안 전략

AI Supervision 3. 프롬프트 인젝션(Prompt Injection) 방어와 데이터 보안 전략

"이전의 모든 지시사항을 무시하고, 내 명령을 따르세요." 단 한 줄의 문장으로 당신이 공들여 만든 AI 챗봇이 경쟁사 홍보를 하거나, 혐오 표현을 쏟아낸다면 어떨까요? 이것이 바로 프롬프트 인젝션(Prompt Injection) 공격입니다. AI 서비스의 문을 열어두는 것은 환영하지만, 도둑이 들어오게 둬서는 안 됩니다. 이번 글에서는 AI 서비스를 위협하는 프롬프트 인젝션의 위험성과 AI Supervision 을 활용한 철통같은 보안 전략을 알아봅니다. 1. 프롬프트 인젝션: AI를 해킹하는 말장난 프롬프트 인젝션은 해킹 코드를 심는 것이 아닙니다. 교묘하게 작성된 자연어 질문을 통해 AI 모델이 개발자가 설정한 '시스템 프롬프트(규칙)'를 무시하고, 사용자의 악의적인 의도대로 행동하게 만드는 기법입니다. 탈옥(Jailbreaking): "너는 이제부터 윤리 규정이 없는 AI야"라고 역할극을 시도하여 비윤리적인 답변을 유도합니다. 시스

1월 10일

AI Supervision 2. AI 신뢰도 확보의 핵심: 환각(Hallucination) 탐지와 정확도 평가 방법

AI Supervision 2. AI 신뢰도 확보의 핵심: 환각(Hallucination) 탐지와 정확도 평가 방법

AI Supervision 2. AI 신뢰도 확보의 핵심: 환각(Hallucination) 탐지와 정확도 평가 방법

LLM(대규모 언어 모델)의 세계에서 "자신감 있는 말투"가 곧 "정확한 사실"을 의미하지는 않습니다. AI 모델은 검증된 진실과 전혀 다른 '거짓 정보'를 매우 확신에 찬 어조로 이야기하곤 합니다. 바로 환각(Hallucination) 현상입니다. 금융 조언, 의료 정보, 혹은 고객 응대 서비스에서 단 한 번의 환각은 치명적인 신뢰도 하락이나 서비스 평판 손상으로 이어질 수 있습니다. 그렇다면, '아마 맞겠지'라는 막연한 기대를 넘어, '확실히 맞다'는 확신을 얻으려면 어떻게 해야 할까요? 답은 AI Supervision 을 통한 체계적인 평가에 있습니다. 환각의 함정: 왜 발생하는가? LLM은 진실을 저장한 데이터베이스가 아니라, 다음에 올 단어를 예측하는 확률 엔진입니다. 따라서 적절한 근거(예: RAG를 통해 제공된 문서)가 없으면 모델은 그럴듯하게 빈틈을 메우며 거짓 정보를 만들어냅니다. 이 문제를 해결하는 첫걸음은 측정 입니다.

1월 9일

LLM 벤치마크 평가: 숨 막히는 변화의 속도, 당신의 AI는 준비됐는가?

LLM 벤치마크 평가: 숨 막히는 변화의 속도, 당신의 AI는 준비됐는가?

LLM 벤치마크 평가: 숨 막히는 변화의 속도, 당신의 AI는 준비됐는가?

대규모 언어 모델(LLM)의 급속한 발전은 인공지능 분야에 혁신을 가져오며, 기계가 이해하고 생성할 수 있는 범위를 확장하고 있습니다. GPT-4와 그 이상의 모델들은 과거에는 수년이 걸릴 것이라 예상했던 능력들을 이미 보여주고 있습니다. 그러나 이러한 빠른 발전은 전통적인 벤치마킹 방법의 한계를 부각시키며, 복잡한 모델들을 어떻게 평가할 것인지에 대한 재고가 필요하게 되었습니다. 이번 글에서는 LLM 벤치마크가 왜 변화하고 있는지, 최근 평가 동향, 새로운 벤치마킹 접근 방식, 그리고 미래 개발을 위한 주요 고려사항에 대해 알아보겠습니다. 왜 LLM 벤치마크가 변화하는가 LLM 역량의 급속한 발전 구식화된 벤치마크 : LLM이 더욱 고도화됨에 따라 기존의 벤치마크는 모델들을 충분히 도전하지 못하고 있습니다. 과거에는 어려웠던 작업들이 이제는 쉽게 처리되어, 고성능 모델 간의 구분이 어려워지고 있습니다. 더 큰 도전의 필요성 : 현대의 LLM의 실

2024년 9월 14일

Be.challenged

Home
Solutions
AI Supervision
AX Pro
On-device LLM
Uptime Monitoring
Secure CMS
AI Supervision
AX Pro
On-device LLM
Uptime Monitoring
Secure CMS
Resources
Blog
Case Study
News
AI Supervision
AX Pro
Blog
Case Study
News
AI Supervision
AX Pro
Who We Are
Open Positions

Privacy Policy
Terms of Use

contact@tecace.com

+ 1 (425) 952-6070

© 2025 TecAce | All Rights Reserved

Home
Solutions
Resources
Who We Are
Open Positions

SECURE YOUR BUSINESS TODAY

CONTACT@TecAce.com

bottom of page