Aprendizagem pessoal com IA
e orientação prática

Chunkr: um serviço completo que usa modelos visuais para a ingestão de documentos e a divisão inteligente em blocos com base na hierarquia de parágrafos do texto

Introdução geral

A Chunkr é uma API auto-hospedada dedicada à conversão de arquivos PDF, PPTX, DOCX e Excel em dados adequados para uso em RAG (Retrieval Augmented Generation) e LLM (Large Language Modelling). Desenvolvida pela Lumina AI Inc. para gerar dados estruturados nos formatos HTML e Markdown usando modelos visuais avançados para a ingestão de documentos com suporte para OCR (Optical Character Recognition) e detecção de caixa delimitadora, a Chunkr oferece uma solução eficiente de processamento de documentos para uma ampla gama de necessidades de empresas e desenvolvedores.

Chunkr: um serviço completo para ingestão de documentos e fragmentação inteligente com base na hierarquia de parágrafos de texto usando modelos visuais-1


 

Lista de funções

  • Conversão de documentosSuporte para conversão de arquivos PDF, PPTX, DOCX e Excel em dados RAG/LLM.
  • Suporte a OCRIntegração da tecnologia de reconhecimento óptico de caracteres para reconhecer automaticamente o conteúdo de texto em documentos.
  • Detecção de caixa de limiteDetecção do layout do documento por meio de modelagem visual e geração de caixas delimitadoras precisas.
  • Saída estruturadaGeração de formatos HTML e Markdown estruturados para facilitar o processamento e o uso subsequentes.
  • auto-hospedadoSuporte a implantações do Docker e do Kubernetes, permitindo que os usuários hospedem serviços localmente ou na nuvem.
  • Alta disponibilidade e escalabilidadeFornecimento de configurações de alta disponibilidade e guias de extensão para acomodar as necessidades de aplicativos de classe empresarial.

 

Usando a Ajuda

Processo de instalação

Início rápido do Docker Compose

  1. Pré-requisitos de instalaçãoVerifique se o Docker e o Docker Compose estão instalados.
  2. armazém de clones::
   git clone https://github.com/lumina-ai-inc/chunkr
cd chunkr
  1. Copie o arquivo de configuração do ambiente::
   cp .env.example .env
  1. Início dos serviços::
   docker compose up -d
  1. serviço de acesso::
    • UI da Web: http://localhost:5173
    • API: http://localhost:8000

Implantação do ambiente de produção do Kubernetes

  1. preliminarVerifique se o cluster do Kubernetes e o kubectl estão instalados.
  2. Serviços de implantação::
   kubectl apply -f kubernetes-manifests/
  1. Configuração de alta disponibilidade e dimensionamento: Referência self-deployment.md documentação para configuração e dimensionamento de alta disponibilidade.

Diretrizes para uso

  1. Criar uma conta e obter uma chave de API::
    • Visite chunkr.ai para registrar uma conta.
    • Faça login para obter a chave da API.
  2. Criação de tarefas::
   curl -X POST https://api.chunkr.ai/api/v1/task \
-H "Content-Type: multipart/form-data" \
-H "Authorization: ${YOUR_API_KEY}" \\
-F "file=@/path/to/your/file" \\
-F "model=HighQuality" \\
-F "target_chunk_length=512" \\
-F "ocr_strategy=Auto" \fscy -F "ocr_strategy=Auto"
  1. Status da tarefa de sondagem::
   curl -X GET https://api.chunkr.ai/api/v1/task/${TASK_ID} \
-H "Autorização: ${YOUR_API_KEY}"

Funções principais

  • Conversão de documentosApós fazer o upload do arquivo, selecione o modelo de conversão e o comprimento do bloco de destino, e o sistema processará e retornará automaticamente os dados estruturados.
  • Reconhecimento de OCRQuando você seleciona a política de OCR ao fazer upload de um arquivo, o sistema reconhece automaticamente o conteúdo do texto no documento e gera uma caixa delimitadora.
  • Visualização de resultadosVisualização de dados estruturados convertidos via API ou UI da Web, com suporte aos formatos HTML e Markdown.

A Chunkr fornece documentação detalhada e código de amostra para ajudar os usuários a começar rapidamente e a se integrar aos sistemas existentes. Tanto os desenvolvedores quanto os usuários corporativos podem usar a Chunkr para processar e converter documentos com eficiência e aumentar a produtividade.

Aprendizagem fácil com IA

O guia do leigo para começar a usar a IA

Ajuda você a aprender a utilizar as ferramentas de IA com baixo custo e a partir de uma base zero.A IA, assim como o software de escritório, é uma habilidade essencial para todos. Dominar a IA lhe dará uma vantagem em sua busca de emprego e metade do esforço em seu trabalho e estudos futuros.

Ver detalhes>
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Chunkr: um serviço completo que usa modelos visuais para a ingestão de documentos e a divisão inteligente em blocos com base na hierarquia de parágrafos do texto

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil