Introdução geral
A Chunkr é uma API auto-hospedada dedicada à conversão de arquivos PDF, PPTX, DOCX e Excel em dados adequados para uso em RAG (Retrieval Augmented Generation) e LLM (Large Language Modelling). Desenvolvida pela Lumina AI Inc. para gerar dados estruturados nos formatos HTML e Markdown usando modelos visuais avançados para a ingestão de documentos com suporte para OCR (Optical Character Recognition) e detecção de caixa delimitadora, a Chunkr oferece uma solução eficiente de processamento de documentos para uma ampla gama de necessidades de empresas e desenvolvedores.
Lista de funções
- Conversão de documentosSuporte para conversão de arquivos PDF, PPTX, DOCX e Excel em dados RAG/LLM.
- Suporte a OCRIntegração da tecnologia de reconhecimento óptico de caracteres para reconhecer automaticamente o conteúdo de texto em documentos.
- Detecção de caixa de limiteDetecção do layout do documento por meio de modelagem visual e geração de caixas delimitadoras precisas.
- Saída estruturadaGeração de formatos HTML e Markdown estruturados para facilitar o processamento e o uso subsequentes.
- auto-hospedadoSuporte a implantações do Docker e do Kubernetes, permitindo que os usuários hospedem serviços localmente ou na nuvem.
- Alta disponibilidade e escalabilidadeFornecimento de configurações de alta disponibilidade e guias de extensão para acomodar as necessidades de aplicativos de classe empresarial.
Usando a Ajuda
Processo de instalação
Início rápido do Docker Compose
- Pré-requisitos de instalaçãoVerifique se o Docker e o Docker Compose estão instalados.
- armazém de clones::
git clone https://github.com/lumina-ai-inc/chunkr
cd chunkr
- Copie o arquivo de configuração do ambiente::
cp .env.example .env
- Início dos serviços::
docker compose up -d
- serviço de acesso::
- UI da Web: http://localhost:5173
- API: http://localhost:8000
Implantação do ambiente de produção do Kubernetes
- preliminarVerifique se o cluster do Kubernetes e o kubectl estão instalados.
- Serviços de implantação::
kubectl apply -f kubernetes-manifests/
- Configuração de alta disponibilidade e dimensionamento: Referência
self-deployment.md
documentação para configuração e dimensionamento de alta disponibilidade.
Diretrizes para uso
- Criar uma conta e obter uma chave de API::
- Visite chunkr.ai para registrar uma conta.
- Faça login para obter a chave da API.
- Criação de tarefas::
curl -X POST https://api.chunkr.ai/api/v1/task \
-H "Content-Type: multipart/form-data" \
-H "Authorization: ${YOUR_API_KEY}" \\
-F "file=@/path/to/your/file" \\
-F "model=HighQuality" \\
-F "target_chunk_length=512" \\
-F "ocr_strategy=Auto" \fscy -F "ocr_strategy=Auto"
- Status da tarefa de sondagem::
curl -X GET https://api.chunkr.ai/api/v1/task/${TASK_ID} \
-H "Autorização: ${YOUR_API_KEY}"
Funções principais
- Conversão de documentosApós fazer o upload do arquivo, selecione o modelo de conversão e o comprimento do bloco de destino, e o sistema processará e retornará automaticamente os dados estruturados.
- Reconhecimento de OCRQuando você seleciona a política de OCR ao fazer upload de um arquivo, o sistema reconhece automaticamente o conteúdo do texto no documento e gera uma caixa delimitadora.
- Visualização de resultadosVisualização de dados estruturados convertidos via API ou UI da Web, com suporte aos formatos HTML e Markdown.
A Chunkr fornece documentação detalhada e código de amostra para ajudar os usuários a começar rapidamente e a se integrar aos sistemas existentes. Tanto os desenvolvedores quanto os usuários corporativos podem usar a Chunkr para processar e converter documentos com eficiência e aumentar a produtividade.