AI个人学习
和实操指南

Chunkr:使用视觉模型进行文档摄取以及根据文本段落层级智能分块的一体化服务

综合介绍

Chunkr 是一个自托管的 API,专门用于将 PDF、PPTX、DOCX 和 Excel 文件转换为适合 RAG(检索增强生成)和 LLM(大语言模型)使用的数据。该项目由 Lumina AI Inc. 开发,利用先进的视觉模型进行文档摄取,支持 OCR(光学字符识别)和边界框检测,生成结构化的 HTML 和 Markdown 格式数据。Chunkr 提供了高效的文档处理解决方案,适用于各种企业和开发者需求。

Chunkr:使用视觉模型进行文档摄取以及根据文本段落层级智能分块的一体化服务-1


 

功能列表

  • 文档转换:支持将 PDF、PPTX、DOCX 和 Excel 文件转换为 RAG/LLM 数据。
  • OCR 支持:集成光学字符识别技术,自动识别文档中的文本内容。
  • 边界框检测:通过视觉模型检测文档布局,生成精确的边界框。
  • 结构化输出:生成结构化的 HTML 和 Markdown 格式,便于后续处理和使用。
  • 自托管:支持 Docker 和 Kubernetes 部署,用户可以在本地或云端自托管服务。
  • 高可用性和扩展性:提供高可用性配置和扩展指南,适应企业级应用需求。

 

使用帮助

安装流程

Docker Compose 快速启动

  1. 安装前提:确保已安装 Docker 和 Docker Compose。
  2. 克隆仓库
   git clone https://github.com/lumina-ai-inc/chunkr
cd chunkr
  1. 复制环境配置文件
   cp .env.example .env
  1. 启动服务
   docker compose up -d
  1. 访问服务
    • Web UI: http://localhost:5173
    • API: http://localhost:8000

Kubernetes 生产环境部署

  1. 准备工作:确保已安装 Kubernetes 集群和 kubectl。
  2. 部署服务
   kubectl apply -f kubernetes-manifests/
  1. 配置高可用性和扩展:参考 self-deployment.md 文档,进行高可用性配置和扩展。

使用指南

  1. 创建账户并获取 API 密钥
    • 访问 chunkr.ai 注册账户。
    • 登录后获取 API 密钥。
  2. 创建任务
   curl -X POST https://api.chunkr.ai/api/v1/task \
-H "Content-Type: multipart/form-data" \
-H "Authorization: ${YOUR_API_KEY}" \
-F "file=@/path/to/your/file" \
-F "model=HighQuality" \
-F "target_chunk_length=512" \
-F "ocr_strategy=Auto"
  1. 轮询任务状态
   curl -X GET https://api.chunkr.ai/api/v1/task/${TASK_ID} \
-H "Authorization: ${YOUR_API_KEY}"

主要功能操作流程

  • 文档转换:上传文件后,选择转换模型和目标块长度,系统会自动处理并返回结构化数据。
  • OCR 识别:在上传文件时选择 OCR 策略,系统会自动识别文档中的文本内容并生成边界框。
  • 结果查看:通过 API 或 Web UI 查看转换后的结构化数据,支持 HTML 和 Markdown 格式。

Chunkr 提供了详细的文档和示例代码,帮助用户快速上手并集成到现有系统中。无论是开发者还是企业用户,都可以利用 Chunkr 高效处理和转换文档,提升工作效率。

AI轻松学

普通人的AI入门指南

帮助你以低成本、零基础学会如何利用AI工具。AI就像办公软件一样,是每个人的必备技能。 掌握AI会让你在求职中占据优势,在未来的工作和学习中事半功倍。

查看详情>
未经允许不得转载:首席AI分享圈 » Chunkr:使用视觉模型进行文档摄取以及根据文本段落层级智能分块的一体化服务

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文