Total de 34 artigos
Tags: extração e limpeza de documentos
Introdução geral O Yek é uma ferramenta rápida baseada em Rust para ler arquivos de texto de repositórios ou diretórios, dividi-los em pedaços e serializá-los para uso em modelos de linguagem grande (LLMs). A ferramenta usa a regra .gitignore por padrão para ignorar arquivos desnecessários e usa o histórico do Git para inferir arquivos importantes...
Introdução geral O LlamaParse é uma ferramenta avançada de análise de documentos que pode processar documentos complexos, como PDF, PowerPoint, Word e planilhas, e convertê-los em dados estruturados. O LlamaParse oferece várias maneiras de usá-lo, incluindo uma API REST autônoma, pacotes Python, TypeScr...
Introdução abrangente O UnDatas.IO é uma plataforma voltada para a análise e o processamento de dados não estruturados. Ela utiliza tecnologia avançada para identificar automaticamente layouts de documentos e classificar tabelas, imagens, fórmulas e textos, simplificando bastante o processo de processamento de dados. A plataforma não só economiza muito tempo na classificação de dados, mas também ajuda...
Introdução abrangente O Zerox é um projeto de código aberto desenvolvido para converter PDF, DOCX, imagens e outros documentos em formato Markdown por meio de modelos visuais. O projeto foi desenvolvido pela equipe getomni-ai e oferece uma solução simples e eficiente de OCR (reconhecimento óptico de caracteres). O Zerox é compatível com as linguagens de programação Node e Python, ...
Introdução geral O SemHash é uma ferramenta leve e flexível para desduplicação de conjuntos de dados por similaridade semântica. Ele combina a rápida geração de incorporação do Model2Vec com a eficiente pesquisa de similaridade ANN (Approximate Nearest Neighbour) do Vicinity.O SemHash é compatível com a desduplicação de um único conjunto de dados (por exemplo, limpeza de...
Introdução geral O Parseur é um software líder de extração de dados de IA projetado para ajudar os usuários a extrair automaticamente dados de texto de PDFs, e-mails e outros documentos. Com o Parseur, os usuários podem converter facilmente dados não estruturados em dados estruturados e enviá-los a vários aplicativos. O software é amplamente ...
Introdução abrangente O NV Ingest (NVIDIA Ingest) é um conjunto de microsserviços de acesso antecipado projetado para analisar centenas de milhares de PDFs não estruturados complexos e confusos e outros documentos corporativos. Ele pode converter esses documentos em metadados e texto para incorporação em sistemas de recuperação.
Introdução geral O Trellis é uma plataforma de dados focada na conversão de fontes de dados não estruturadas complexas em um formato SQL estruturado. Por meio de seu poderoso mecanismo de IA, o Trellis é capaz de processar uma ampla gama de fontes de dados, como documentos financeiros, chamadas de voz e e-mails, e convertê-los em SQL que pode ser usado por equipes de dados e operações...
Introdução abrangente O Ollama OCR é um poderoso kit de ferramentas de reconhecimento óptico de caracteres (OCR) que usa o modelo de linguagem visual de última geração fornecido pela plataforma Ollama para extrair texto de imagens. O projeto está disponível como um pacote Python e fornece uma interface de aplicativo da Web Streamlit fácil de usar. Ele oferece suporte a vários ...
Introdução abrangente O llmstxt-generator é uma ferramenta profissional de extração e integração de conteúdo da Web dedicada à preparação de conjuntos de dados textuais de alta qualidade para treinamento e inferência em modelos de linguagem grande (LLMs). Desenvolvida pela Mendable AI, a ferramenta usa a tecnologia de rastreamento da Web fornecida por @firecrawl_dev e GPT-4-mini ...