[AI] Chonkie: 가볍고 빠른 RAG 청킹 라이브러리steemCreated with Sketch.

in #blog24 days ago


Chonkie는 귀여운 피그미 하마를 마스코트로 한 가볍고 빠른 RAG 청킹(chunking) 라이브러리입니다.
이 라이브러리는 "I like them big, I like them chonkie"라는 Moto Moto의 유명한 문구를 모토로 삼고 있으며, 복잡한 의존성이나 불필요한 기능 없이 RAG 시스템에 필요한 텍스트 분할 기능을 효율적으로 제공합니다.

주요 특징

  • 가벼운 용량: 기본 설치 시 9.7MB로, 다른 대안들(80-171MB)보다 훨씬 가벼움
  • 빠른 속도: 토큰 청킹은 33배, 문장 청킹은 2배, 시맨틱 청킹은 2.5배 더 빠름
  • 사용 편의성: 설치와 임포트가 매우 간단함

지원하는 청킹 방식

  • TokenChunker: 고정된 크기의 토큰 단위로 분할
  • WordChunker: 단어 기반 분할
  • SentenceChunker: 문장 기반 분할
  • SemanticChunker: 의미적 유사도 기반 분할
  • SDPMChunker: Semantic Double-Pass Merge 방식 사용[2]

설치 방법

pip install chonkie

모든 기능을 사용하려면:

pip install chonkie[all]



Posted through the ECblog app (https://blog.etain.club)

Sort:  

[광고] STEEM 개발자 커뮤니티에 참여 하시면, 다양한 혜택을 받을 수 있습니다.

Upvoted! Thank you for supporting witness @jswit.