综合介绍
Chunkr 是一个自托管的 API,专门用于将 PDF、PPTX、DOCX 和 Excel 文件转换为适合 RAG(检索增强生成)和 LLM(大语言模型)使用的数据。该项目由 Lumina AI Inc. 开发,利用先进的视觉模型进行文档摄取,支持 OCR(光学字符识别)和边界框检测,生成结构化的 HTML 和 Markdown 格式数据。Chunkr 提供了高效的文档处理解决方案,适用于各种企业和开发者需求。
功能列表
- 文档转换:支持将 PDF、PPTX、DOCX 和 Excel 文件转换为 RAG/LLM 数据。
- OCR 支持:集成光学字符识别技术,自动识别文档中的文本内容。
- 边界框检测:通过视觉模型检测文档布局,生成精确的边界框。
- 结构化输出:生成结构化的 HTML 和 Markdown 格式,便于后续处理和使用。
- 自托管:支持 Docker 和 Kubernetes 部署,用户可以在本地或云端自托管服务。
- 高可用性和扩展性:提供高可用性配置和扩展指南,适应企业级应用需求。
使用帮助
安装流程
Docker Compose 快速启动
- 安装前提:确保已安装 Docker 和 Docker Compose。
- 克隆仓库:
git clone https://github.com/lumina-ai-inc/chunkr
cd chunkr
- 复制环境配置文件:
cp .env.example .env
- 启动服务:
docker compose up -d
- 访问服务:
- Web UI: http://localhost:5173
- API: http://localhost:8000
Kubernetes 生产环境部署
- 准备工作:确保已安装 Kubernetes 集群和 kubectl。
- 部署服务:
kubectl apply -f kubernetes-manifests/
- 配置高可用性和扩展:参考
self-deployment.md
文档,进行高可用性配置和扩展。
使用指南
- 创建账户并获取 API 密钥:
- 访问 chunkr.ai 注册账户。
- 登录后获取 API 密钥。
- 创建任务:
curl -X POST https://api.chunkr.ai/api/v1/task \
-H "Content-Type: multipart/form-data" \
-H "Authorization: ${YOUR_API_KEY}" \
-F "file=@/path/to/your/file" \
-F "model=HighQuality" \
-F "target_chunk_length=512" \
-F "ocr_strategy=Auto"
- 轮询任务状态:
curl -X GET https://api.chunkr.ai/api/v1/task/${TASK_ID} \
-H "Authorization: ${YOUR_API_KEY}"
主要功能操作流程
- 文档转换:上传文件后,选择转换模型和目标块长度,系统会自动处理并返回结构化数据。
- OCR 识别:在上传文件时选择 OCR 策略,系统会自动识别文档中的文本内容并生成边界框。
- 结果查看:通过 API 或 Web UI 查看转换后的结构化数据,支持 HTML 和 Markdown 格式。
Chunkr 提供了详细的文档和示例代码,帮助用户快速上手并集成到现有系统中。无论是开发者还是企业用户,都可以利用 Chunkr 高效处理和转换文档,提升工作效率。