Chunkr: un servicio todo en uno que utiliza modelos visuales para la ingestión de documentos y la agrupación inteligente basada en la jerarquía de párrafos de texto.

Introducción general

Chunkr es una API autoalojada dedicada a convertir archivos PDF, PPTX, DOCX y Excel en datos aptos para su uso en RAG (Retrieval Augmented Generation) y LLM (Large Language Modelling). Desarrollado por Lumina AI Inc. para generar datos estructurados en formatos HTML y Markdown utilizando modelos visuales avanzados para la ingestión de documentos con soporte para OCR (Reconocimiento Óptico de Caracteres) y detección de bounding box, Chunkr proporciona una solución eficiente de procesamiento de documentos para una amplia gama de necesidades empresariales y de desarrolladores.

Chunkr:使用视觉模型进行文档摄取以及根据文本段落层级智能分块的一体化服务

 

Lista de funciones

  • conversión de documentosSoporte para convertir archivos PDF, PPTX, DOCX y Excel a datos RAG/LLM.
  • Soporte OCR: Integre la tecnología de reconocimiento óptico de caracteres para identificar automáticamente el contenido textual de los documentos.
  • Detección de cajas límite: Detección de la disposición de documentos mediante modelado visual y generación de cuadros delimitadores precisos.
  • Salida estructurada: Genera formatos HTML y Markdown estructurados para facilitar su posterior procesamiento y uso.
  • autoalojadoCompatible con despliegues Docker y Kubernetes, lo que permite a los usuarios autoalojar servicios localmente o en la nube.
  • Alta disponibilidad y escalabilidad: Proporciona configuraciones de alta disponibilidad y guías de ampliación para adaptarse a las necesidades de las aplicaciones de clase empresarial.

 

Utilizar la ayuda

Proceso de instalación

Inicio rápido de Docker Compose

  1. Requisitos de instalaciónAsegúrese de que Docker y Docker Compose están instalados.
  2. almacén de clones::
   git clone https://github.com/lumina-ai-inc/chunkr
cd chunkr
  1. Copiar el fichero de configuración del entorno::
   cp .env.example .env
  1. Inicio de los servicios::
   docker compose up -d
  1. servicio de acceso::
    • Interfaz web: http://localhost:5173
    • API: http://localhost:8000

Despliegue del entorno de producción Kubernetes

  1. preliminarAsegúrese de que el clúster Kubernetes y kubectl están instalados.
  2. Servicios de implantación::
   kubectl apply -f kubernetes-manifests/
  1. Configuración de alta disponibilidad y escalado: Referencia self-deployment.md documentación sobre configuración y escalado de alta disponibilidad.

Normas de uso

  1. Crear una cuenta y obtener una clave API::
    • Visita chunkr.ai para registrarte.
    • Inicie sesión para obtener la clave API.
  2. Creación de tareas::
   curl -X POST https://api.chunkr.ai/api/v1/task \
-H "Content-Type: multipart/form-data" \
-H "Authorization: ${YOUR_API_KEY}" \
-F "file=@/path/to/your/file" \
-F "model=HighQuality" \
-F "target_chunk_length=512" \
-F "ocr_strategy=Auto"
  1. Estado de la tarea de sondeo::
   curl -X GET https://api.chunkr.ai/api/v1/task/${TASK_ID} \
-H "Authorization: ${YOUR_API_KEY}"

Funciones principales

  • conversión de documentosEl sistema procesará automáticamente los datos estructurados tras cargar el archivo, seleccionar el modelo de conversión y la longitud de bloque de destino.
  • Reconocimiento OCRCuando se selecciona la política de OCR al cargar un archivo, el sistema reconoce automáticamente el contenido de texto del documento y genera un cuadro delimitador.
  • ResultadosVisualización de datos estructurados convertidos a través de la API o la interfaz de usuario web, compatible con los formatos HTML y Markdown.

Chunkr proporciona documentación detallada y código de ejemplo para ayudar a los usuarios a empezar rápidamente e integrarse en los sistemas existentes. Tanto los desarrolladores como los usuarios empresariales pueden utilizar Chunkr para procesar y convertir documentos de forma eficiente y aumentar la productividad.

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...