文本处理的高效利器来了!
Chonkie 是一个超轻量级且功能强大的文本分块(chunking)库,专为快速、精准地拆分和优化文本而设计。告别臃肿依赖,轻松完成文本切割、语义分块和向量检索准备。
主要特点:
- 极速分块:Token、句子、递归、语义等多种切分方式,满足各种场景需求
- 一站式流程:支持文本获取、分块、优化、嵌入,一气呵成直通向量数据库
- 轻巧无负担:核心包仅数百KB,不拖慢项目运行
- 集成丰富:兼容32+主流工具和向量数据库,轻松融入你的AI工作流
- 多语言支持:开箱即用,覆盖56种语言
- 云端 & 本地均可用,灵活部署
适合做基于 Retrieval-Augmented Generation (RAG) 的文本检索、问答系统和知识库构建,助你快速打造高效智能应用。
GitHub 地址 👉 github.com/chonkie-inc/chonkie
一行命令安装:
```bash
pip install chonkie
```
轻松上手,文档详尽,跟着小河马一起 CHONK,效率满满!🦛✨