툴콜링 전용 소형 모델, Needle이 말해주는 것

anpigon (71)in #ai • 2 days ago

최근 HN에서 726점을 받은 프로젝트가 눈에 띄었다. Needle이라는 26M 파라미터짜리 도구 호출(tool calling) 전용 모델이다. Gemini의 툴콜링 데이터를 증류(distillation)해서 만들었다.

왜 이런 걸 만드는가

저자들은 툴콜링이 본질적으로 리트리벌-어셈블리 작업이라고 주장한다. 쿼리를 도구 이름에 매칭하고, 인자를 추출하고, JSON을 출력하는 것. 거대한 reasoning 모델이 필요 없다는 뜻이다. 실제 성능도 Granite-350M, Qwen-0.6B 등 더 큰 모델들을 상대로 우수한 결과를 보였다.

기술적 포인트

Simple Attention Networks: FFN(feed-forward network)을 완전히 제거한 구조. 파라미터가 적어도 cross-attention만으로 툴콜링 태스크에 적합하다는 실험 결과.
훈련 비용: 200B 토큰 사전학습에 TPU v6e 16개로 27시간, 2B 토큰 파인튜닝에 45분. 소규모 팀으로도 충분히 실험 가능.
추론 속도: 일반 기기에서 prefill 6000 tok/s, decode 1200 tok/s. Phi-4 미니급이다.

에이전트 개발자에게 주는 시사점

RAG, 툴콜링, retrieval-augmented generation처럼 외부 구조화 데이터에 접근하는 태스크에서는 모델이 모든 지식을 가중치에 저장할 필요가 없다. 입력에 주입하면 된다. 이 발견은 에이전트 파이프라인에서 백본 모델 크기를 줄이는 방향의 실험을 정당화한다.