26M Needle, 온디바이스 도구호출의 실험

Needle은 거대한 범용 모델을 더 작게 흉내 내는 일반적인 데모가 아니다. Cactus Compute가 공개한 README에 따르면 이 프로젝트는 Gemini 3.1의 도구 호출 행동을 2,600만 파라미터 규모의 Simple Attention Network로 증류했고, 16개 TPU v6e에서 2,000억 토큰 사전학습을 27시간 진행한 뒤 20억 토큰 규모의 단발 함수 호출 데이터로 45분 후학습했다. 운영 환경에서는 Cactus 런타임 위에서 프리필 6,000 tokens/sec, 디코드 1,200 tokens/sec를 목표로 제시한다. 가중치는 Hugging Face의 Needle 저장소에 공개되어 있다.

중요한 점은 이 수치가 GPT급 대화 품질을 주장하는 것이 아니라는 사실이다. Needle은 날씨 조회 같은 단발 도구 선택 문제에서 어떤 함수를 어떤 인자로 호출할지를 빠르게 내는 부품에 가깝다. 최근 Gemini File Search가 멀티모달 RAG를 기본 기능으로 끌어올렸다는 흐름과 이어 보면, 대형 모델은 추론과 계획을 맡고 작은 모델은 로컬 라우팅, 개인화된 도구 선택, 저지연 보조 작업을 맡는 구조가 더 현실적으로 보인다.

왜 2,600만 파라미터가 뉴스인가

에이전트 제품의 병목은 항상 최고 성능 모델이 아니다. 실제 제품에서는 사용자가 클릭 한 번, 음성 한 문장, 앱 내부 이벤트 하나를 만들 때마다 수많은 작고 반복적인 판단이 발생한다. 일정 앱을 열지, 메일 검색을 할지, 지도 API를 호출할지 같은 결정은 대화형 철학 논쟁이 아니라 낮은 지연시간과 낮은 비용이 더 중요하다. Needle이 흥미로운 이유는 바로 이 영역을 정면으로 겨냥하기 때문이다.

한국 스타트업이나 사내 자동화 팀에게도 메시지는 분명하다. 모든 요청을 클라우드 프런티어 모델로 보내는 설계는 초기에는 빠르지만, 사용량이 늘면 비용과 개인정보, 지연시간이 동시에 부담이 된다. 특히 개인 비서, 웨어러블, 매장 단말, 제조 현장 앱처럼 네트워크가 불안정하거나 데이터 반출이 민감한 환경에서는 작은 도구호출 모델이 UX를 좌우할 수 있다.

범용 모델이 아니라 에이전트 회로의 부품

Needle README는 FunctionGemma-270M, Qwen-0.6B, Granite-350M, LFM2.5-350M보다 단발 함수 호출에서 강하다고 설명하면서도, 그 모델들이 대화와 범용성에서는 더 넓은 역량을 가진다고 선을 긋는다. 이 태도가 중요하다. 소형 모델의 승부처는 모든 것을 잘함이 아니라 좁은 일을 충분히 예측 가능하게 함이다.

접근	장점	약점	알맞은 적용처
프런티어 모델 단독	추론, 언어 이해, 예외 처리 강함	비용과 지연시간, 데이터 반출 부담	복잡한 상담, 코딩, 분석
Needle 같은 도구호출 소형 모델	빠르고 저렴하며 로컬 파인튜닝 가능	대화 맥락과 장기 추론은 제한적	앱 내부 함수 라우팅, 웨어러블, 개인 비서
규칙 기반 라우터	예측 가능하고 감사가 쉬움	새로운 표현과 예외에 약함	금융 승인, 보안 정책, 정형 워크플로

이 표에서 보듯 Needle은 규칙 기반 시스템을 완전히 대체하기보다, 규칙과 대형 모델 사이의 빈틈을 메우는 계층이 될 가능성이 크다. 앞서 로컬 AI 기본값 논쟁에서 지적했듯, 앱 기능을 굳이 분산 시스템으로 만들 필요가 없는 경우가 많다. 반대로 개인화된 도구 선택처럼 사용자의 데이터와 습관이 가까울수록 로컬 모델은 장점이 커진다.

한국 개발팀이 확인해야 할 세 가지

첫째, 공개 수치의 적용 범위를 좁게 읽어야 한다. README의 6,000 tokens/sec와 1,200 tokens/sec는 특정 런타임과 조건에서의 성능 주장이다. 실제 모바일 SoC, 브라우저 WebGPU, 사내 MDM 환경에서는 전력, 메모리, 배포 크기, 업데이트 정책이 함께 검증되어야 한다.

둘째, 파인튜닝 데이터가 경쟁력이다. Needle은 playground와 needle finetune 흐름을 제공하며, 자체 도구 정의에 맞춘 데이터 생성과 평가를 강조한다. 결국 팀마다 필요한 것은 공개 모델 자체보다 자사 앱의 함수 목록, 실패 로그, 사용자 표현을 반영한 데이터셋이다. xAI의 Grok 증언이 모델 증류 경쟁의 민낯을 드러냈다는 논의처럼, 증류는 기술 성능뿐 아니라 데이터 출처와 라이선스 책임도 같이 따라온다.

셋째, 도구 호출 모델은 보안 경계가 아니다. 작은 모델이 빠르게 함수를 고른다고 해서 그 함수 실행이 안전해지는 것은 아니다. 권한 확인, 인자 검증, 감사 로그, 사용자 확인 단계는 별도로 남아야 한다. Google의 function calling 문서나 OpenAI의 tool calling 가이드가 공통적으로 강조하는 것도 모델 출력은 애플리케이션 레이어에서 검증해야 한다는 점이다.

경쟁 구도: 더 작은 모델과 더 똑똑한 런타임

Needle의 경쟁자는 단순히 다른 0.3B 모델이 아니다. 경쟁축은 세 갈래다. 첫째는 Qwen, Gemma, Granite 같은 공개 소형 모델이다. 둘째는 Apple, Google, Qualcomm이 밀고 있는 온디바이스 추론 스택이다. 셋째는 LangGraph, Vercel AI SDK, MCP 같은 에이전트 런타임이 자체 라우팅과 정책 계층을 흡수하는 방향이다.

따라서 Needle이 제품화되려면 모델 카드보다 개발자 경험이 중요하다. README의 needle playground처럼 로컬에서 도구를 테스트하고 클릭 몇 번으로 파인튜닝하는 흐름은 좋은 출발이다. 다만 팀이 실제로 채택하려면 재현 가능한 평가셋, 실패 케이스 분석, 라이선스 명확성, 모바일 배포 예제가 따라와야 한다.

FAQ

Needle은 ChatGPT나 Gemini를 대체하나?

아니다. Needle은 단발 함수 호출에 초점을 둔 실험적 소형 모델이다. 복잡한 대화, 장문 추론, 창의적 작성은 여전히 대형 모델이 유리하다.

2,600만 파라미터면 스마트폰에서 충분한가?

가능성은 크지만 단정할 수는 없다. 모델 크기만이 아니라 런타임, 양자화, 메모리 대역폭, 배터리 소모, 앱 배포 정책이 함께 성능을 결정한다.

한국 기업이 바로 적용할 수 있나?

프로토타입에는 적합하다. 다만 고객 데이터와 연결되는 프로덕션에서는 함수 권한, 로그, 개인정보 처리, 실패 시 대체 경로를 먼저 설계해야 한다.

가장 큰 리스크는 무엇인가?

도구 호출 성공률을 과신하는 것이다. 잘못된 함수 선택이나 인자 추출 오류는 실제 결제, 예약, 삭제 같은 외부 효과로 이어질 수 있다.

개발자는 무엇을 준비해야 하나?

자사 도구 스키마를 정리하고, 실제 사용자 요청과 실패 로그를 평가셋으로 축적해야 한다. 소형 모델 도입의 핵심은 모델 선택보다 측정 가능한 도구호출 벤치마크다.

26M Needle, 온디바이스 도구호출의 실험

AI 뉴스를 놓치지 마세요

왜 2,600만 파라미터가 뉴스인가

범용 모델이 아니라 에이전트 회로의 부품

한국 개발팀이 확인해야 할 세 가지

경쟁 구도: 더 작은 모델과 더 똑똑한 런타임

FAQ

Needle은 ChatGPT나 Gemini를 대체하나?

2,600만 파라미터면 스마트폰에서 충분한가?

한국 기업이 바로 적용할 수 있나?

가장 큰 리스크는 무엇인가?

개발자는 무엇을 준비해야 하나?

관련 토픽 더 보기

관련 기사

Gemini File Search, 멀티모달 RAG를 기본 기능으로 끌어올렸다

Google Colab MCP Server, AI 에이전트의 클라우드 손이 된다

Marimo-Pair: 반응형 Python 노트북을 AI 에이전트 작업 환경으로

Tambo 1.0 오픈소스 툴킷 출시, AI 에이전트용 React 컴포넌트 렌더링 혁신

Stripe Link, AI 에이전트 결제의 안전장치가 되려 한다