Total de 35 artigos
Tags: extração e limpeza de documentos Página 4
Introdução abrangente O MinerU é uma ferramenta de extração de dados de código aberto desenvolvida pela equipe do OpenDataLab no Laboratório de Inteligência Artificial de Xangai, com foco na extração eficiente de conteúdo de documentos PDF complexos, páginas da Web e eBooks. Ele pode converter documentos PDF multimodais que contenham imagens, fórmulas, tabelas e outros elementos em m...
Introdução geral O Marker é uma ferramenta de processamento de documentos baseada em aprendizagem profunda, projetada para converter arquivos PDF para o formato Markdown com rapidez e precisão. Ele oferece suporte a uma ampla variedade de tipos de documentos e é especialmente otimizado para a conversão de livros e artigos científicos. O Marker é capaz de remover conteúdo redundante, como cabeçalhos e rodapés, formatar tabelas e...
Introdução geral O Mathpix é uma poderosa ferramenta de automação de documentos orientada por IA, projetada para pesquisadores, desenvolvedores e empresas. Ele converte PDFs e imagens de forma rápida e precisa em texto pesquisável, exportável e legível por máquina. O Mathpix oferece uma ampla variedade de recursos, incluindo reconhecimento de fórmulas matemáticas, LaT...
Introdução abrangente O Unstructured-IO fornece um conjunto de componentes de código aberto para processamento e pré-processamento de imagens e documentos de texto, como PDF, HTML, documentos do Word etc. O Unstructured-IO fornece um conjunto de componentes de código aberto para processamento e pré-processamento de imagens e documentos de texto, como PDF, HTML, documentos do Word etc. Seu principal objetivo é simplificar e otimizar os fluxos de trabalho de processamento de dados, especialmente para aplicativos de modelo de linguagem grande (LLM), para fornecer suporte. Seu principal objetivo é simplificar e otimizar os fluxos de trabalho de processamento de dados, especialmente para aplicativos de modelo de linguagem grande (LLM) para fornecer suporte.
Introdução abrangente O projeto Reader da Jina AI é uma ferramenta de código aberto (endereço de código aberto do Reader), pode ser qualquer URL adicionando o prefixo https://r.jina.ai/转换成适合大型语言模型 (Large Language Models, LLM), formato de entrada, suporte para o modo de fluxo dinâmico e leitura de imagens...