Recentemente, eu estava escolhendo um projeto inteligente de atendimento ao cliente para RAG Ferramentas de processamento de dados da base de conhecimento, em uma nova análise dos principais projetos de processamento de documentos atuais, incluindo olmOCR, Marker, MinerU, Docling, Markitdown, Llamaparse as seis ferramentas e uma breve comparação entre elas. Uma visão abrangente. MinerU A extração de documentos é mais geral, adequada para todos os tipos de cenários, mas as outras ferramentas propostas para documentos têm suas próprias características, portanto, escolha de acordo com suas próprias necessidades.
olmOCR
Arquitetura técnica: com base no modelo de linguagem grande para criar um processo completo de processamento de PDF. Ele usa uma arquitetura distribuída para dar suporte ao processamento paralelo de um ou vários nós e usa sglang para obter raciocínio acelerado por GPU.
Recursos funcionais: com recursos de extração de texto de alta qualidade, pode extrair texto simples estruturado de PDFs complexos, lidar corretamente com layouts de várias colunas, tabelas, equações matemáticas e conteúdo manuscrito. Produz resultados no formato Markdown; custa cerca de US$ 190 para processar 1.000.000 de páginas PDF; também supera o desempenho do Marker, MinerU e GOT-OCR 2.0 e outras ferramentas semelhantes.
Cenários aplicáveis: digitalização de documentos acadêmicos, conversão de repositórios de documentos em nível empresarial, construção de conjuntos de dados de treinamento de IA e recuperação de conteúdo de documentos históricos.
Vantagem: projeto de código aberto, alta qualidade de análise, custo mais baixo do que as APIs comerciais, desempenho excepcional.
Deficiências: o uso de um limite mais alto, a necessidade de várias dependências do sistema; ainda está nos estágios iniciais de desenvolvimento, a documentação precisa ser aprimorada; no momento, só oferece suporte à análise de PDF e imagens.
https://github.com/allenai/olmocr
Marcador
Arquitetura técnica: baseada em PyMuPDF e Tesseract OCR, suporte para aceleração de GPU (mecanismo Surya OCR), código aberto leve.
Recursos: Foco em PDF para Markdown, suporte a fórmulas para LaTeX, preservação de imagens em linha, reconhecimento de OCR de PDFs digitalizados, capacidade de lidar com documentos em vários idiomas.
Cenário: para literatura de pesquisa científica, livros e outras necessidades básicas de conversão de PDF, adequado para usuários com formação técnica para rápida implementação.
Vantagem: código aberto e gratuito, velocidade de processamento rápida (4 vezes mais rápida do que outras similares).
🙅♀️ Insuficiência: falta de capacidade de análise de layout complexo, dependência de recursos locais de GPU.
https://github.com/VikParuchuri/marker
MinerU
Arquitetura técnica: integrar LayoutLMv3, YOLOv8 e outros modelos, oferecer suporte à análise multimodal (tabela/fórmula/imagem), contar com o ambiente Docker e CUDA.
Recursos: extração precisa de texto em PDF, filtragem automática de cabeçalho/rodapé, suporte para EPUB/MOBI/DOCX para Markdown ou JSON, OCR multilíngue (84 idiomas), modelo UniMERNet integrado otimizado para reconhecimento de fórmulas.
Cenários aplicáveis: aplicável à gestão de literatura acadêmica, análise de demonstrações financeiras e outros cenários que exigem estruturação de alta precisão.
Vantagem: conformidade de segurança de nível empresarial com suporte a API e GUI.
Deficiências: dependência de GPUs, processamento de formulários mais lento, configuração complexa.
https://github.com/opendatalab/MinerU
Docagem
Arquitetura técnica: design modular, integração de Unstructured, LayoutParser e outras bibliotecas, suporte para localização.
Recursos: analisa PDF/DOCX/PPTX e outros formatos, mantém a ordem de leitura e a estrutura da tabela, oferece suporte a OCR e integração com LangChain, produz Markdown ou JSON.
Cenários aplicáveis: adequado para resolução de contratos empresariais, automação de relatórios e outros aplicativos complexos que precisam ser combinados com a estrutura de IA.
Vantagem: compatível com o IBM Eco e suporta processamento misto de vários formatos.
🙅♀️ Insuficiente: é necessário um ambiente CUDA, e algumas funções dependem de modelos comerciais.
https://github.com/DS4SD/docling
Markitdown
Arquitetura técnica: projeto de código aberto da Microsoft, GPT-4 integrado e outros modelos para obter processamento aprimorado de IA, suporte para conversão de vários formatos.
Recursos: Suporte a Word/Excel/PPT, imagem (OCR), áudio (transcrição de voz) para Markdown, processamento em lote de arquivos ZIP, pode gerar descrições de imagens (requer API OpenAI).
Cenário: adequado para a criação de conteúdo misto em vários formatos, como gráficos PPT para documentos, transcrição de áudio e vídeo.
Vantagem: suporte ao formato mais completo, amigável ao desenvolvedor (Python API/CLI).
🙅♀️ deficiências: dependência de APIs externas, alguns recursos exigem modelos pagos.
https://github.com/microsoft/markitdown
Llamaparse
Arquitetura técnica: projetada para o RAG, combinando o Azure OpenAI e o banco de dados de vetores de IA KDB para otimizar a recuperação semântica.
Recursos: análise de PDFs complexos contendo tabelas/gráficos, saída de gráficos Markdown/LaTeX/Mermaid, suporte para geração de gráficos de conhecimento, conformidade de segurança em nível empresarial.
Cenários aplicáveis: para análise de documentos jurídicos, perguntas e respostas de manuais técnicos e outros aplicativos inteligentes que precisam ser combinados com o LLM.
Vantagem: alta precisão de análise e suporte para otimização semântica de dados semiestruturados.
🙅♂️ Deficiências: velocidade de processamento lenta, créditos gratuitos limitados, necessidade de chave de API.
https://docs.llamaindex.ai/en/stable/llama_cloud/llama_parse