Chunkr: un servicio todo en uno que utiliza modelos visuales para la ingestión de documentos y la agrupación inteligente basada en la jerarquía de párrafos de texto.
Últimos recursos sobre IAPublicado hace 10 meses Círculo de intercambio de inteligencia artificial 24.9K 00
Introducción general
Chunkr es una API autoalojada dedicada a convertir archivos PDF, PPTX, DOCX y Excel en datos aptos para su uso en RAG (Retrieval Augmented Generation) y LLM (Large Language Modelling). Desarrollado por Lumina AI Inc. para generar datos estructurados en formatos HTML y Markdown utilizando modelos visuales avanzados para la ingestión de documentos con soporte para OCR (Reconocimiento Óptico de Caracteres) y detección de bounding box, Chunkr proporciona una solución eficiente de procesamiento de documentos para una amplia gama de necesidades empresariales y de desarrolladores.

Lista de funciones
- conversión de documentosSoporte para convertir archivos PDF, PPTX, DOCX y Excel a datos RAG/LLM.
- Soporte OCR: Integre la tecnología de reconocimiento óptico de caracteres para identificar automáticamente el contenido textual de los documentos.
- Detección de cajas límite: Detección de la disposición de documentos mediante modelado visual y generación de cuadros delimitadores precisos.
- Salida estructurada: Genera formatos HTML y Markdown estructurados para facilitar su posterior procesamiento y uso.
- autoalojadoCompatible con despliegues Docker y Kubernetes, lo que permite a los usuarios autoalojar servicios localmente o en la nube.
- Alta disponibilidad y escalabilidad: Proporciona configuraciones de alta disponibilidad y guías de ampliación para adaptarse a las necesidades de las aplicaciones de clase empresarial.
Utilizar la ayuda
Proceso de instalación
Inicio rápido de Docker Compose
- Requisitos de instalaciónAsegúrese de que Docker y Docker Compose están instalados.
- almacén de clones::
git clone https://github.com/lumina-ai-inc/chunkr
cd chunkr
- Copiar el fichero de configuración del entorno::
cp .env.example .env
- Inicio de los servicios::
docker compose up -d
- servicio de acceso::
- Interfaz web: http://localhost:5173
- API: http://localhost:8000
Despliegue del entorno de producción Kubernetes
- preliminarAsegúrese de que el clúster Kubernetes y kubectl están instalados.
- Servicios de implantación::
kubectl apply -f kubernetes-manifests/
- Configuración de alta disponibilidad y escalado: Referencia
self-deployment.md
documentación sobre configuración y escalado de alta disponibilidad.
Normas de uso
- Crear una cuenta y obtener una clave API::
- Visita chunkr.ai para registrarte.
- Inicie sesión para obtener la clave API.
- Creación de tareas::
curl -X POST https://api.chunkr.ai/api/v1/task \
-H "Content-Type: multipart/form-data" \
-H "Authorization: ${YOUR_API_KEY}" \
-F "file=@/path/to/your/file" \
-F "model=HighQuality" \
-F "target_chunk_length=512" \
-F "ocr_strategy=Auto"
- Estado de la tarea de sondeo::
curl -X GET https://api.chunkr.ai/api/v1/task/${TASK_ID} \
-H "Authorization: ${YOUR_API_KEY}"
Funciones principales
- conversión de documentosEl sistema procesará automáticamente los datos estructurados tras cargar el archivo, seleccionar el modelo de conversión y la longitud de bloque de destino.
- Reconocimiento OCRCuando se selecciona la política de OCR al cargar un archivo, el sistema reconoce automáticamente el contenido de texto del documento y genera un cuadro delimitador.
- ResultadosVisualización de datos estructurados convertidos a través de la API o la interfaz de usuario web, compatible con los formatos HTML y Markdown.
Chunkr proporciona documentación detallada y código de ejemplo para ayudar a los usuarios a empezar rápidamente e integrarse en los sistemas existentes. Tanto los desarrolladores como los usuarios empresariales pueden utilizar Chunkr para procesar y convertir documentos de forma eficiente y aumentar la productividad.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...