Aprendizagem pessoal com IA
e orientação prática
Espelho de desenho CyberKnife

Base de conhecimento RAG extração de documentos essenciais comparação de projetos de código aberto

Recentemente, eu estava escolhendo um projeto inteligente de atendimento ao cliente para RAG Ferramentas de processamento de dados da base de conhecimento, em uma nova análise dos principais projetos de processamento de documentos atuais, incluindo olmOCR, Marker, MinerU, Docling, Markitdown, Llamaparse as seis ferramentas e uma breve comparação entre elas. Uma visão abrangente. MinerU A extração de documentos é mais geral, adequada para todos os tipos de cenários, mas as outras ferramentas propostas para documentos têm suas próprias características, portanto, escolha de acordo com suas próprias necessidades.

 

olmOCR

Arquitetura técnica: com base no modelo de linguagem grande para criar um processo completo de processamento de PDF. Ele usa uma arquitetura distribuída para dar suporte ao processamento paralelo de um ou vários nós e usa sglang para obter raciocínio acelerado por GPU.


Recursos funcionais: com recursos de extração de texto de alta qualidade, pode extrair texto simples estruturado de PDFs complexos, lidar corretamente com layouts de várias colunas, tabelas, equações matemáticas e conteúdo manuscrito. Produz resultados no formato Markdown; custa cerca de US$ 190 para processar 1.000.000 de páginas PDF; também supera o desempenho do Marker, MinerU e GOT-OCR 2.0 e outras ferramentas semelhantes.

olmOCR: conversão de documentos PDF em texto, suporte para tabelas, fórmulas e reconhecimento de conteúdo manuscrito-1

Cenários aplicáveis: digitalização de documentos acadêmicos, conversão de repositórios de documentos em nível empresarial, construção de conjuntos de dados de treinamento de IA e recuperação de conteúdo de documentos históricos.

Vantagem: projeto de código aberto, alta qualidade de análise, custo mais baixo do que as APIs comerciais, desempenho excepcional.

Deficiências: o uso de um limite mais alto, a necessidade de várias dependências do sistema; ainda está nos estágios iniciais de desenvolvimento, a documentação precisa ser aprimorada; no momento, só oferece suporte à análise de PDF e imagens.

https://github.com/allenai/olmocr

 

Marcador

Arquitetura técnica: baseada em PyMuPDF e Tesseract OCR, suporte para aceleração de GPU (mecanismo Surya OCR), código aberto leve.

Recursos: Foco em PDF para Markdown, suporte a fórmulas para LaTeX, preservação de imagens em linha, reconhecimento de OCR de PDFs digitalizados, capacidade de lidar com documentos em vários idiomas.

Marker: ferramenta de código aberto para conversão rápida de PDF em Markdown-1

Cenário: para literatura de pesquisa científica, livros e outras necessidades básicas de conversão de PDF, adequado para usuários com formação técnica para rápida implementação.

Vantagem: código aberto e gratuito, velocidade de processamento rápida (4 vezes mais rápida do que outras similares).

🙅‍♀️ Insuficiência: falta de capacidade de análise de layout complexo, dependência de recursos locais de GPU.

https://github.com/VikParuchuri/marker

 

MinerU

Arquitetura técnica: integrar LayoutLMv3, YOLOv8 e outros modelos, oferecer suporte à análise multimodal (tabela/fórmula/imagem), contar com o ambiente Docker e CUDA.

Recursos: extração precisa de texto em PDF, filtragem automática de cabeçalho/rodapé, suporte para EPUB/MOBI/DOCX para Markdown ou JSON, OCR multilíngue (84 idiomas), modelo UniMERNet integrado otimizado para reconhecimento de fórmulas.

MinerU: extração e conversão de documentos PDF para o formato Markdown multimodal, suporte à digitalização OCR de e-books-1

Cenários aplicáveis: aplicável à gestão de literatura acadêmica, análise de demonstrações financeiras e outros cenários que exigem estruturação de alta precisão.

Vantagem: conformidade de segurança de nível empresarial com suporte a API e GUI.

Deficiências: dependência de GPUs, processamento de formulários mais lento, configuração complexa.

https://github.com/opendatalab/MinerU

 

Docagem

Arquitetura técnica: design modular, integração de Unstructured, LayoutParser e outras bibliotecas, suporte para localização.

Recursos: analisa PDF/DOCX/PPTX e outros formatos, mantém a ordem de leitura e a estrutura da tabela, oferece suporte a OCR e integração com LangChain, produz Markdown ou JSON.

Cenários aplicáveis: adequado para resolução de contratos empresariais, automação de relatórios e outros aplicativos complexos que precisam ser combinados com a estrutura de IA.

Docling: suporta análise e exportação de documentos em vários formatos para Markdown e JSON, suporta vários formatos-1

Vantagem: compatível com o IBM Eco e suporta processamento misto de vários formatos.

🙅‍♀️ Insuficiente: é necessário um ambiente CUDA, e algumas funções dependem de modelos comerciais.

https://github.com/DS4SD/docling

 

Markitdown

Arquitetura técnica: projeto de código aberto da Microsoft, GPT-4 integrado e outros modelos para obter processamento aprimorado de IA, suporte para conversão de vários formatos.

Recursos: Suporte a Word/Excel/PPT, imagem (OCR), áudio (transcrição de voz) para Markdown, processamento em lote de arquivos ZIP, pode gerar descrições de imagens (requer API OpenAI).

MarkItDown: Ferramenta de conversão inteligente de documentos da Microsoft para converter vários arquivos para o formato Markdown-1

Cenário: adequado para a criação de conteúdo misto em vários formatos, como gráficos PPT para documentos, transcrição de áudio e vídeo.

Vantagem: suporte ao formato mais completo, amigável ao desenvolvedor (Python API/CLI).

🙅‍♀️ deficiências: dependência de APIs externas, alguns recursos exigem modelos pagos.

https://github.com/microsoft/markitdown

 

Llamaparse

Arquitetura técnica: projetada para o RAG, combinando o Azure OpenAI e o banco de dados de vetores de IA KDB para otimizar a recuperação semântica.

Recursos: análise de PDFs complexos contendo tabelas/gráficos, saída de gráficos Markdown/LaTeX/Mermaid, suporte para geração de gráficos de conhecimento, conformidade de segurança em nível empresarial.

Cenários aplicáveis: para análise de documentos jurídicos, perguntas e respostas de manuais técnicos e outros aplicativos inteligentes que precisam ser combinados com o LLM.

LlamaParse: serviço de análise de documentos e extração de dados de alta qualidade da Llamaindex (1.000 páginas gratuitas por dia) -1

Vantagem: alta precisão de análise e suporte para otimização semântica de dados semiestruturados.

🙅‍♂️ Deficiências: velocidade de processamento lenta, créditos gratuitos limitados, necessidade de chave de API.

https://docs.llamaindex.ai/en/stable/llama_cloud/llama_parse

CDN1
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Base de conhecimento RAG extração de documentos essenciais comparação de projetos de código aberto

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil