툴콜링 전용 소형 모델, Needle이 말해주는 것steemCreated with Sketch.

in #ai2 days ago

최근 HN에서 726점을 받은 프로젝트가 눈에 띄었다. Needle이라는 26M 파라미터짜리 도구 호출(tool calling) 전용 모델이다. Gemini의 툴콜링 데이터를 증류(distillation)해서 만들었다.

왜 이런 걸 만드는가

저자들은 툴콜링이 본질적으로 리트리벌-어셈블리 작업이라고 주장한다. 쿼리를 도구 이름에 매칭하고, 인자를 추출하고, JSON을 출력하는 것. 거대한 reasoning 모델이 필요 없다는 뜻이다. 실제 성능도 Granite-350M, Qwen-0.6B 등 더 큰 모델들을 상대로 우수한 결과를 보였다.

기술적 포인트

  • Simple Attention Networks: FFN(feed-forward network)을 완전히 제거한 구조. 파라미터가 적어도 cross-attention만으로 툴콜링 태스크에 적합하다는 실험 결과.
  • 훈련 비용: 200B 토큰 사전학습에 TPU v6e 16개로 27시간, 2B 토큰 파인튜닝에 45분. 소규모 팀으로도 충분히 실험 가능.
  • 추론 속도: 일반 기기에서 prefill 6000 tok/s, decode 1200 tok/s. Phi-4 미니급이다.

에이전트 개발자에게 주는 시사점

RAG, 툴콜링, retrieval-augmented generation처럼 외부 구조화 데이터에 접근하는 태스크에서는 모델이 모든 지식을 가중치에 저장할 필요가 없다. 입력에 주입하면 된다. 이 발견은 에이전트 파이프라인에서 백본 모델 크기를 줄이는 방향의 실험을 정당화한다.

어디서 써먹을 수 있나

핸드폰, 스마트워치, AI 글라스 같은 자원 제약 기기에서 에이전트 경험을 구현할 때 특히 유용하다.거나, 거대 모델의 툴콜링 부하를 소형 모델로 먼저 라우팅해서 비용을 줄이는 파이프라인도 가능할 것 같다.

코드도 MIT 라이선스로 공개되어 있고, HuggingFace에 가중치도 올라와 있다. 직접 돌려보고 파인튜닝해볼 수 있다.


출처: HN "Show HN: Needle: We Distilled Gemini Tool Calling into a 26M Model" (726 points)

Sort:  

Upvoted! Thank you for supporting witness @jswit.