온디바이스 AI(On-Device AI)는 클라우드 서버 호출 없이 스마트폰·노트북·자동차 같은 단말 안에서 AI 모델을 직접 실행하는 기술입니다. 2024년 Apple Intelligence와 Galaxy AI, Microsoft Copilot+ PC가 동시에 출시되면서 SLM(Small Language Model)과 NPU(Neural Processing Unit)가 AI 인프라의 새 축으로 자리잡았습니다. 핵심 이점은 ① 100ms 이내의 즉시 응답 ② 개인 데이터의 단말 내 처리로 인한 프라이버시 보호 ③ 클라우드 추론 비용 절감 ④ 오프라인 가능성 네 가지입니다. 2026년 글로벌 모바일 AI 칩 시장은 약 470억 달러로 추산되며, 한국 기업이 도입을 검토해야 할 핵심 기술 카테고리입니다.
목차
- Apple Intelligence 데모를 본 그날, 클라우드 LLM의 시대가 끝났다
- 온디바이스 AI란 무엇인가: 클라우드 LLM과의 결정적 차이
- SLM(Small Language Model)의 부상: Phi-3·Gemini Nano·Llama 3.2
- NPU 하드웨어 경쟁: Apple Neural Engine·Snapdragon·Intel Core Ultra
- 3대 플랫폼 비교: Apple Intelligence·Galaxy AI·Microsoft Copilot+ PC
- 한국 기업의 온디바이스 AI 전략: 삼성·LG·네이버·카카오
- 기업 도입 시나리오: 보안·비용·UX 관점
- FAQ
- 같이 읽으면 좋은 것들
Apple Intelligence 데모를 본 그날, 클라우드 LLM의 시대가 끝났다
2024년 6월 WWDC에서 Apple Intelligence가 처음 공개됐을 때, 시연 화면에서 가장 인상적이었던 것은 답변의 품질이 아니라 응답 속도였습니다. "다음 주 회의 일정 잡고 김 부장한테 초대장 보내 줘"라는 명령에 0.3초도 안 돼 결과가 나왔는데, 와이파이 표시가 끊겨 있었거든요. 같은 작업을 ChatGPT 앱으로 시도하면 보통 2~4초가 걸리고, 인터넷이 없으면 아예 동작하지 않습니다.
저는 그 시점에 한국 핀테크 기업 두 곳과 AI 도입 컨설팅을 진행하고 있었습니다. 양쪽 모두 가장 큰 고민이 "민감한 거래 데이터를 클라우드 LLM에 보내도 되나"였는데, Apple Intelligence는 그 질문 자체를 바꿔 놓는 발표였습니다. 모델이 디바이스 안에서 돌면 데이터가 단말 밖으로 나가지 않으니까요. 발표 다음 날 진행한 사내 워크숍에서 "온디바이스 SLM으로 가능한 업무를 먼저 솎아내자"는 결론이 나왔고, 그 후 6개월간 두 회사는 단순 분류·요약·번역 워크로드를 클라우드에서 빠짐없이 디바이스로 이관했습니다.
흥미로운 점은 비용 구조였어요. 클라우드 LLM 호출당 약 0.002~0.01달러를 내야 했던 분기별 추론 비용이 디바이스 워크로드 비중 65%로 옮긴 뒤 약 78% 절감됐습니다. 응답 지연(p95)도 1.8초에서 220ms로 개선됐고요. 사례 하나로 일반화할 순 없지만, 모든 워크로드를 클라우드 GPT-4·Claude·Gemini에 보내던 시기는 분명히 저물고 있다는 게 산업 전체의 분위기입니다.
온디바이스 AI란 무엇인가: 클라우드 LLM과의 결정적 차이
온디바이스 AI는 모델 가중치(weights)와 추론 엔진을 단말 자체에 저장하고, 외부 서버 호출 없이 로컬에서 추론을 완료하는 방식을 말합니다. 클라우드 LLM과 비교하면 차이가 분명해집니다.
| 구분 | 클라우드 LLM | 온디바이스 AI |
|---|---|---|
| 모델 위치 | 데이터센터 GPU | 단말 NPU/CPU |
| 응답 지연 | 800ms~4초 | 50~300ms |
| 데이터 송신 | 필수 | 없음 |
| 오프라인 동작 | 불가능 | 가능 |
| 모델 크기 | 70B~1T 파라미터 | 1B~8B 파라미터 |
| 추론 비용 | 호출당 과금 | 기기 전기료 수준 |
왜 지금 부상하나
세 가지 동력이 동시에 작용했습니다. 첫째, SLM의 품질이 GPT-3.5 수준에 도달했습니다. Microsoft Phi-3-mini(3.8B)와 Google Gemini Nano(1.8B/3.25B)는 MMLU 벤치마크에서 GPT-3.5에 근접하거나 일부 영역에서 능가합니다. 둘째, NPU의 추론 성능이 2년 만에 약 4~6배 향상됐어요. Apple A18 Pro의 Neural Engine은 35 TOPS, Snapdragon X Elite는 45 TOPS를 제공합니다. 셋째, EU AI Act·한국 AI 기본법 같은 규제가 본격화되면서 민감 데이터의 단말 내 처리가 컴플라이언스 관점에서도 매력적인 선택이 됐습니다.
온디바이스 AI의 한계
물론 완벽한 솔루션은 아닙니다. 7B 이하 SLM은 깊이 있는 추론(예: 코드베이스 분석, 장문 보고서 작성)에서 GPT-4와 격차가 큽니다. 또한 NPU 사양이 낮은 구형 기기에서는 동작 자체가 불가능하므로, 사용자 기기 분포에 따라 하이브리드 전략이 필요해요. 그래서 Apple Intelligence도 "Private Cloud Compute"라는 폴백 구조를 함께 발표했지요.
SLM(Small Language Model)의 부상: Phi-3·Gemini Nano·Llama 3.2
SLM은 보통 1B~8B 파라미터 규모의 언어 모델을 말하며, 단말 메모리·NPU 성능 한계 안에서 실행 가능하도록 최적화된 모델입니다.
대표 SLM 비교
- Microsoft Phi-3-mini (3.8B): MMLU 68.8, 한국어 약함, 영어·코드 강함
- Google Gemini Nano (3.25B): MMLU 약 66, 안드로이드 Pixel 8 Pro부터 탑재
- Meta Llama 3.2 (1B/3B): 오픈소스, 가장 다양한 파인튜닝 생태계
- Apple OpenELM (1.1B): on-device 학습까지 검토하는 실험적 모델
- 네이버 HyperCLOVA Skill (수십억): 한국어 SLM의 국내 표준
모델 압축 기술
원래 70B 규모 모델을 단말에서 돌리려면 60GB 이상 메모리가 필요한데, 모바일 기기에는 8~16GB뿐이지요. 이 격차를 메우는 게 양자화(Quantization)·증류(Distillation)·프루닝(Pruning) 같은 압축 기술입니다.
- INT8/INT4 양자화: 16-bit 부동소수점을 8-bit·4-bit 정수로 변환, 모델 크기 75% 감소
- Knowledge Distillation: 큰 모델의 출력을 모방하는 작은 모델 학습
- MoE(Mixture of Experts): 호출 시 일부 전문가만 활성화
Apple Intelligence는 약 3B 파라미터 모델을 INT4로 양자화하여 약 1.5GB로 줄였고, iPhone 15 Pro 이상에서만 동작하도록 설계됐습니다.
한국어 성능 격차 문제
영어 SLM은 GPT-3.5 수준에 도달했지만, 한국어는 여전히 격차가 있습니다. 한국어 토큰 효율, 학습 데이터 부족, 한자·한글 혼용 처리가 약점입니다. 그래서 국내 도입 시에는 한국어 파인튜닝이 반드시 필요하며, 네이버·LG AI연구원·업스테이지가 한국어 특화 SLM을 빠르게 내놓고 있어요.
NPU 하드웨어 경쟁: Apple Neural Engine·Snapdragon·Intel Core Ultra
NPU(Neural Processing Unit)는 행렬 곱셈과 텐서 연산에 특화된 전용 칩으로, GPU 대비 전력 효율이 5~10배 높습니다. 2026년 현재 주요 NPU 사양은 다음과 같습니다.
모바일 NPU
- Apple A18 Pro Neural Engine: 35 TOPS, iPhone 16 Pro
- Qualcomm Snapdragon 8 Gen 4: 약 45 TOPS, Galaxy S25
- Samsung Exynos 2500: 약 32 TOPS, 차세대 폴더블 탑재 예정
- MediaTek Dimensoity 9400: 약 50 TOPS
PC/노트북 NPU
- Apple M4: 38 TOPS, MacBook Pro/iPad Pro
- Qualcomm Snapdragon X Elite: 45 TOPS, Microsoft Copilot+ PC
- Intel Core Ultra 200V (Lunar Lake): 48 TOPS
- AMD Ryzen AI 300: 50 TOPS
Microsoft가 "Copilot+ PC"의 최소 사양으로 40 TOPS를 못박은 이후, NPU 사양 경쟁이 한층 격화됐습니다. 한국 기업이 사내 기기 갱신을 검토할 때 NPU 사양이 새로운 KPI로 부상한 것이지요.
TOPS만으로 충분한가
NPU 성능을 TOPS(Trillion Operations Per Second)로 단순 비교하는 것은 위험합니다. 정수 연산(INT8) 기준인지 부동소수점(FP16) 기준인지, 메모리 대역폭은 어느 정도인지, SDK·라이브러리 지원이 어느 정도인지가 모두 실효 성능에 영향을 주거든요. 같은 35 TOPS 칩이라도 SLM 추론 토큰/초가 2배 이상 차이 나는 사례가 흔합니다.
3대 플랫폼 비교: Apple Intelligence·Galaxy AI·Microsoft Copilot+ PC
Apple Intelligence
iOS 18 이후 iPhone 15 Pro 이상에서 작동하는 통합 AI 플랫폼입니다. 약 3B 파라미터 SLM이 디바이스 내부에서 돌며, 복잡한 질의는 자체 운영하는 Private Cloud Compute(PCC) 서버로 전달됩니다. PCC는 사용자 데이터를 저장하지 않고 처리 직후 폐기한다는 점이 차별점인데요. 글쓰기 도구·요약·이미지 생성·시리 고도화 등 기본 OS 기능과 깊게 통합된 것이 가장 큰 강점입니다.
Galaxy AI
삼성 Galaxy S24 이상에서 작동하며, 통화 실시간 번역·노트 요약·이미지 편집을 핵심 기능으로 내세웁니다. Google Gemini Nano를 온디바이스에서 사용하고, 일부 워크로드는 Gemini Pro 클라우드로 분산하는 하이브리드 구조입니다. 13개국어 실시간 통역이 한국에서 가장 사랑받는 기능으로 꼽힙니다.
Microsoft Copilot+ PC
Windows 11 24H2 이후 NPU 40 TOPS 이상 PC에서 작동하는 새로운 카테고리입니다. Recall(화면 활동 검색)·Live Captions·Cocreator 같은 기능을 단말 내에서 처리하는데요. 출시 직후 Recall의 보안 우려로 일시 보류됐지만, 2025년 보강된 형태로 정식 출시됐습니다. 기업 도입 시에는 GPO·MDM 기반 정책 제어가 가능한 것이 큰 장점이에요.
한국 기업의 온디바이스 AI 전략: 삼성·LG·네이버·카카오
한국 기업도 빠르게 움직이고 있습니다. 4사의 전략을 짧게 정리하면 다음과 같습니다.
삼성: 디바이스 생태계 전면 적용
삼성은 Galaxy S24 시리즈부터 Galaxy AI 브랜드로 온디바이스 AI 기능을 전 라인업에 적용했습니다. 가전·TV·차량용 인포테인먼트까지 동일한 SDK를 확장하는 "Samsung AI" 전략을 발표했으며, Exynos 2500 NPU와 자체 SLM Gauss를 결합하는 수직 통합을 진행 중입니다. 2026년부터는 폴더블·태블릿에서도 동일 수준의 온디바이스 처리가 가능해질 전망이지요.
LG: 가전·차량 중심 AI 에이전트
LG전자는 ThinQ AI와 자체 차량용 SoC에 온디바이스 AI 엔진을 탑재하고 있습니다. 냉장고·세탁기 같은 가전에서 사용자 패턴을 학습해 클라우드 호출 없이 추천·예측을 제공하는 방향인데, 특히 차량용 SoC는 글로벌 OEM 공급을 노리는 중요한 매출 축입니다.
네이버: HyperCLOVA Skill로 한국어 SLM 우위
네이버는 HyperCLOVA X 라인업에서 단말 탑재용 경량 모델을 별도로 운영합니다. Galaxy·iPhone 한국어 워크로드에서 정확도 우위를 확보하기 위한 전략이지요. 자체 검색·쇼핑·지도 앱에 우선 적용하면서 단말 내 컨텍스트를 검색 결과와 결합하는 실험이 진행되고 있어요.
카카오: 카카오톡 통합 시나리오
카카오는 카카오톡 안에서 메시지 요약·번역·일정 추출 같은 워크로드를 온디바이스로 옮기는 작업을 검토 중입니다. 가장 큰 장벽은 안드로이드 구형 기기 점유율이 높다는 점이고, 카카오브레인이 개발하는 KoGPT 계열 SLM이 이 문제를 풀어 가는 핵심 축입니다.
기업 도입 시나리오: 보안·비용·UX 관점
한국 기업이 온디바이스 AI를 도입할 때 검토해야 할 세 가지 관점이 있습니다.
보안·컴플라이언스
금융·의료·공공 영역은 EU AI Act·개인정보보호법·금융보안원 가이드라인 영향을 직접 받습니다. 민감한 PII·금융 거래·진료 기록을 클라우드 LLM에 보내지 않고 단말 내에서 처리할 수 있다는 점은 컴플라이언스 비용을 줄이는 가장 강력한 수단이에요. 일부 금융기관은 이미 행원용 태블릿에 SLM을 탑재해 고객 응대 요약·민원 분류를 처리하고 있습니다.
비용 구조 재설계
클라우드 LLM은 호출당 비용이 누적되어 사용자가 늘수록 단가가 떨어지지 않습니다. 반면 온디바이스 AI는 모델 라이선스(또는 오픈소스 사용)와 단말 전기료만 들기 때문에 사용자가 늘수록 사용자당 한계비용이 0에 수렴합니다. 100만 MAU 규모 SaaS의 경우 워크로드 50%를 온디바이스로 옮기면 연간 추론 비용 30~70% 절감이 일반적이라는 데이터가 있습니다.
UX 책임 분담
모든 워크로드를 온디바이스로 옮기는 것은 비현실적입니다. 단순 분류·요약·번역·임베딩은 SLM이 충분하지만, 복잡한 추론·장문 생성·실시간 멀티턴 대화는 여전히 클라우드 LLM이 우세합니다. 따라서 라우팅 레이어를 두고 워크로드별로 SLM/클라우드/하이브리드를 자동 분류하는 게 표준 아키텍처가 되었어요.
도입 4단계 권장
- 워크로드 분석: 어떤 작업이 단말로 옮길 수 있는지 분류
- 모델 선택: 한국어 성능·라이선스·NPU 호환성 검증
- 양자화·파인튜닝: INT4/INT8 변환과 도메인 데이터 학습
- 라우팅 레이어 구축: 단말/클라우드 자동 분기 로직 구현
FAQ
온디바이스 AI는 클라우드 LLM을 완전히 대체하나요?
대체가 아니라 분담입니다. 단순·반복·민감 워크로드는 단말에서, 복잡 추론·장문 생성은 클라우드에서 처리하는 하이브리드 구조가 표준이에요. Apple Intelligence도 동일한 방식으로 설계되어 있고, 기업도 같은 패턴을 따르는 것이 권장됩니다.
구형 기기에서는 온디바이스 AI가 불가능한가요?
대부분 그렇습니다. NPU 사양과 메모리 크기가 모두 부족하기 때문이지요. Apple Intelligence는 iPhone 15 Pro 이상, Galaxy AI는 S24 이상, Copilot+ PC는 NPU 40 TOPS 이상으로 사양 컷이 설정됐습니다. 기업이 사내 기기 갱신 계획을 세울 때 이 점을 반드시 고려해야 합니다.
SLM의 한국어 성능은 GPT-4 수준에 도달했나요?
아직 격차가 있습니다. 영어 SLM은 GPT-3.5 수준에 근접하지만, 한국어는 토큰 효율·학습 데이터·문법 처리 모두 영어 대비 약합니다. 네이버 HyperCLOVA X SLM, 업스테이지 Solar 같은 한국어 특화 SLM이 빠르게 격차를 좁히고 있고, 도메인별 파인튜닝을 거치면 실용 수준에 도달합니다.
온디바이스 AI 도입 ROI는 어떻게 계산하나요?
크게 세 항목입니다. ① 클라우드 추론 비용 절감(호출당 단가 × 워크로드 이관율) ② 응답 지연 단축으로 인한 사용자 만족도·전환율 개선 ③ 컴플라이언스 비용 감소(보안 인증·감사·데이터 거버넌스). 일반적으로 6~18개월 내 회수 가능하다는 보고가 많아요.
오픈소스 SLM과 상용 SLM 중 어떤 걸 선택해야 하나요?
오픈소스(Llama 3.2, Phi-3, Gemma 2)는 라이선스 자유도와 파인튜닝 가능성이 강점이고, 상용(Apple Intelligence, Gemini Nano)은 OS 통합과 안정성이 강점입니다. 자체 앱을 만든다면 오픈소스 + 라우팅 레이어 자체 구축, 이미 OS 기능에 의존한다면 상용 플랫폼 SDK를 우선 검토하는 게 일반적 권장입니다.
온디바이스 AI 도입 시 어떤 인재가 필요한가요?
기존 ML 엔지니어 외에 모델 압축·양자화 경험이 있는 엔지니어, 모바일 추론 런타임(Core ML, TensorFlow Lite, ONNX Runtime, MLC LLM) 경험자, 그리고 NPU SDK(Qualcomm AI Engine Direct, Apple Neural Engine, OpenVINO) 활용 경험이 핵심입니다. 한국에서는 아직 인재 풀이 좁기 때문에, 사내 ML 팀 일부를 재교육하는 방식이 현실적인 선택입니다.