Total de 34 artigos

Tags: extração e limpeza de documentos

Yek: leitura de arquivos de texto do repositório git e sua rápida fragmentação para uso em modelos grandes - Chief AI Sharing Circle

Yek: leitura de arquivos de texto do repositório git e sua rápida divisão em pedaços para modelos grandes

Introdução geral O Yek é uma ferramenta rápida baseada em Rust para ler arquivos de texto de repositórios ou diretórios, dividi-los em pedaços e serializá-los para uso em modelos de linguagem grande (LLMs). A ferramenta usa a regra .gitignore por padrão para ignorar arquivos desnecessários e usa o histórico do Git para inferir arquivos importantes...

2025-01-21Ferramentas de IA Projeto de código aberto de IA Extração e limpeza de documentos

LlamaParse: serviço de análise de documentos e extração de dados de alta qualidade da Llamaindex (1.000 páginas por dia gratuitamente) - Chief AI Sharing Circle

LlamaParse: serviço de análise de documentos e extração de dados de alta qualidade da Llamaindex (1.000 páginas gratuitas por dia).

Introdução geral O LlamaParse é uma ferramenta avançada de análise de documentos que pode processar documentos complexos, como PDF, PowerPoint, Word e planilhas, e convertê-los em dados estruturados. O LlamaParse oferece várias maneiras de usá-lo, incluindo uma API REST autônoma, pacotes Python, TypeScr...

2025-01-20Ferramentas de IA Serviços abertos de IA Extração e limpeza de documentos

UnDatas.IO: serviço de API para análise precisa de vários tipos de dados não estruturados (pago)

Introdução abrangente O UnDatas.IO é uma plataforma voltada para a análise e o processamento de dados não estruturados. Ela utiliza tecnologia avançada para identificar automaticamente layouts de documentos e classificar tabelas, imagens, fórmulas e textos, simplificando bastante o processo de processamento de dados. A plataforma não só economiza muito tempo na classificação de dados, mas também ajuda...

2025-01-20Ferramentas de IA Serviços abertos de IA Extração e limpeza de documentos

Zerox: PDF, DOCX, conversão de imagem para Markdown, modelo visual de alta precisão OCR-Chief AI Sharing Circle

Zerox: PDF, DOCX, conversão de imagem para Markdown, OCR de alta precisão de modelo visual

Introdução abrangente O Zerox é um projeto de código aberto desenvolvido para converter PDF, DOCX, imagens e outros documentos em formato Markdown por meio de modelos visuais. O projeto foi desenvolvido pela equipe getomni-ai e oferece uma solução simples e eficiente de OCR (reconhecimento óptico de caracteres). O Zerox é compatível com as linguagens de programação Node e Python, ...

2025-01-19Ferramentas de IA Projeto de código aberto de IA Extração e limpeza de documentos

SemHash: implementação rápida de desduplicação de texto semântico para melhorar a eficiência da limpeza de dados

Introdução geral O SemHash é uma ferramenta leve e flexível para desduplicação de conjuntos de dados por similaridade semântica. Ele combina a rápida geração de incorporação do Model2Vec com a eficiente pesquisa de similaridade ANN (Approximate Nearest Neighbour) do Vicinity.O SemHash é compatível com a desduplicação de um único conjunto de dados (por exemplo, limpeza de...

2025-01-17Ferramentas de IA Projeto de código aberto de IA Extração e limpeza de documentos

Parseur: extração automatizada de dados de documentos, texto estruturado de vários documentos - Chief AI Sharing Circle

Parseur: extração automatizada de dados de documentos, extração de texto estruturado de vários documentos

Introdução geral O Parseur é um software líder de extração de dados de IA projetado para ajudar os usuários a extrair automaticamente dados de texto de PDFs, e-mails e outros documentos. Com o Parseur, os usuários podem converter facilmente dados não estruturados em dados estruturados e enviá-los a vários aplicativos. O software é amplamente ...

2025-01-17Ferramentas de IA Extração e limpeza de documentos

NV Ingest: análise de documentos de formato complexo e extração de dados multimodais como metadados e texto - Chief AI Sharing Circle

NV Ingest: análise de documentos de formato complexo e extração de dados multimodais em metadados e texto

Introdução abrangente O NV Ingest (NVIDIA Ingest) é um conjunto de microsserviços de acesso antecipado projetado para analisar centenas de milhares de PDFs não estruturados complexos e confusos e outros documentos corporativos. Ele pode converter esses documentos em metadados e texto para incorporação em sistemas de recuperação.

2025-01-14Ferramentas de IA Projeto de código aberto de IA Extração e limpeza de documentos

Trellis: converte documentos não estruturados em dados estruturados no formato EXCEL, PDF rápido para formar (pago) - Chief AI Sharing Circle

Trellis: converte documentos não estruturados em dados estruturados no formato EXCEL, PDF de forma rápida (pago)

Introdução geral O Trellis é uma plataforma de dados focada na conversão de fontes de dados não estruturadas complexas em um formato SQL estruturado. Por meio de seu poderoso mecanismo de IA, o Trellis é capaz de processar uma ampla gama de fontes de dados, como documentos financeiros, chamadas de voz e e-mails, e convertê-los em SQL que pode ser usado por equipes de dados e operações...

2025-01-13Ferramentas de IA Extração e limpeza de documentos

Ollama OCR: extração de texto de imagens usando modelos visuais no Ollama

Introdução abrangente O Ollama OCR é um poderoso kit de ferramentas de reconhecimento óptico de caracteres (OCR) que usa o modelo de linguagem visual de última geração fornecido pela plataforma Ollama para extrair texto de imagens. O projeto está disponível como um pacote Python e fornece uma interface de aplicativo da Web Streamlit fácil de usar. Ele oferece suporte a vários ...

2025-01-10Ferramentas de IA Projeto de código aberto de IA OCR Extração e limpeza de documentos

llms.txt Generator: rastreie rapidamente o conteúdo do site e gere um conjunto de dados de texto de treinamento LLM - Chief AI Sharing Circle

Gerador de llms.txt: capture rapidamente o conteúdo do site e gere conjuntos de dados de texto de treinamento LLM.

Introdução abrangente O llmstxt-generator é uma ferramenta profissional de extração e integração de conteúdo da Web dedicada à preparação de conjuntos de dados textuais de alta qualidade para treinamento e inferência em modelos de linguagem grande (LLMs). Desenvolvida pela Mendable AI, a ferramenta usa a tecnologia de rastreamento da Web fornecida por @firecrawl_dev e GPT-4-mini ...

2025-01-05Ferramentas de IA Projeto de código aberto de IA Extração e limpeza de documentos

1
2
3
4
página seguinte
Total de 4 páginas