Chunkr: un servicio todo en uno que utiliza modelos visuales para la ingestión de documentos y la agrupación inteligente basada en la jerarquía de párrafos de texto.
Últimos recursos sobre IAPublicado hace 9 meses Círculo de intercambio de inteligencia artificial 12.7K 00
Introducción general
Chunkr es una API autoalojada dedicada a convertir archivos PDF, PPTX, DOCX y Excel en datos aptos para su uso en RAG (Retrieval Augmented Generation) y LLM (Large Language Modelling). Desarrollado por Lumina AI Inc. para generar datos estructurados en formatos HTML y Markdown utilizando modelos visuales avanzados para la ingestión de documentos con soporte para OCR (Reconocimiento Óptico de Caracteres) y detección de bounding box, Chunkr proporciona una solución eficiente de procesamiento de documentos para una amplia gama de necesidades empresariales y de desarrolladores.

Lista de funciones
- conversión de documentosSoporte para convertir archivos PDF, PPTX, DOCX y Excel a datos RAG/LLM.
- Soporte OCR: Integre la tecnología de reconocimiento óptico de caracteres para identificar automáticamente el contenido textual de los documentos.
- Detección de cajas límite: Detección de la disposición de documentos mediante modelado visual y generación de cuadros delimitadores precisos.
- Salida estructurada: Genera formatos HTML y Markdown estructurados para facilitar su posterior procesamiento y uso.
- autoalojadoCompatible con despliegues Docker y Kubernetes, lo que permite a los usuarios autoalojar servicios localmente o en la nube.
- Alta disponibilidad y escalabilidad: Proporciona configuraciones de alta disponibilidad y guías de ampliación para adaptarse a las necesidades de las aplicaciones de clase empresarial.
Utilizar la ayuda
Proceso de instalación
Inicio rápido de Docker Compose
- Requisitos de instalaciónAsegúrese de que Docker y Docker Compose están instalados.
- almacén de clones::
git clone https://github.com/lumina-ai-inc/chunkr
cd chunkr
- Copiar el fichero de configuración del entorno::
cp .env.example .env
- Inicio de los servicios::
docker compose up -d
- servicio de acceso::
- Interfaz web: http://localhost:5173
- API: http://localhost:8000
Despliegue del entorno de producción Kubernetes
- preliminarAsegúrese de que el clúster Kubernetes y kubectl están instalados.
- Servicios de implantación::
kubectl apply -f kubernetes-manifests/
- Configuración de alta disponibilidad y escalado: Referencia
self-deployment.md
documentación sobre configuración y escalado de alta disponibilidad.
Normas de uso
- Crear una cuenta y obtener una clave API::
- Visita chunkr.ai para registrarte.
- Inicie sesión para obtener la clave API.
- Creación de tareas::
curl -X POST https://api.chunkr.ai/api/v1/task \
-H "Content-Type: multipart/form-data" \
-H "Authorization: ${YOUR_API_KEY}" \
-F "file=@/path/to/your/file" \
-F "model=HighQuality" \
-F "target_chunk_length=512" \
-F "ocr_strategy=Auto"
- Estado de la tarea de sondeo::
curl -X GET https://api.chunkr.ai/api/v1/task/${TASK_ID} \
-H "Authorization: ${YOUR_API_KEY}"
Funciones principales
- conversión de documentosEl sistema procesará automáticamente los datos estructurados tras cargar el archivo, seleccionar el modelo de conversión y la longitud de bloque de destino.
- Reconocimiento OCRCuando se selecciona la política de OCR al cargar un archivo, el sistema reconoce automáticamente el contenido de texto del documento y genera un cuadro delimitador.
- ResultadosVisualización de datos estructurados convertidos a través de la API o la interfaz de usuario web, compatible con los formatos HTML y Markdown.
Chunkr proporciona documentación detallada y código de ejemplo para ayudar a los usuarios a empezar rápidamente e integrarse en los sistemas existentes. Tanto los desarrolladores como los usuarios empresariales pueden utilizar Chunkr para procesar y convertir documentos de forma eficiente y aumentar la productividad.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...