Extração e limpeza de documentos

Total de 67 artigos

organizar em ordem

OneFileLLM: integração de várias fontes de dados em um único arquivo de texto

Introdução abrangente O OneFileLLM é uma ferramenta de linha de comando de código aberto projetada para consolidar várias fontes de dados em um único arquivo de texto para facilitar a entrada em modelos de linguagem grande (LLMs). Ele é compatível com o processamento de repositórios do GitHub, artigos do ArXiv, transcrições de vídeos do YouTube,...

5 meses atrás

017.8K

Chatlog: ferramenta de código aberto para extrair e consultar os registros de bate-papo do WeChat

Introdução geral O Chatlog é uma ferramenta de código aberto que se concentra na extração e consulta de registros de bate-papo do banco de dados local do WeChat. Ele é compatível com as versões 3.x e 4.0 do WeChat, abrangendo os sistemas Windows e macOS. Os usuários podem usar a linha de comando, a interface de terminal ou o H...

Recursos mais recentes de IA # Projeto de código aberto AI Java Serviços de MCP ## Extração e limpeza de documentos

5 meses atrás

029.9K

VOP: ferramenta de OCR para extração de diagramas complexos e fórmulas matemáticas

Introdução abrangente O Versatile OCR Program é uma ferramenta de reconhecimento óptico de caracteres (OCR) de código aberto projetada para trabalhar com documentos acadêmicos e educacionais complexos. Ele pode extrair texto, tabelas, fórmulas matemáticas, diagramas e esquemas de PDFs, imagens e outros documentos e gerar...

Recursos mais recentes de IA # Projeto de código aberto AI Java # OCR # Extração e limpeza de documentos

5 meses atrás

016.5K

DevDocs: um serviço MCP para rastrear e organizar rapidamente a documentação técnica

Introdução geral O DevDocs é uma ferramenta de código aberto totalmente gratuita desenvolvida pela equipe da CyberAGI e hospedada no GitHub. Projetada para programadores e desenvolvedores de software, ela começa com o URL de um documento técnico, rastreia automaticamente as páginas relevantes e as organiza em um ma...

Recursos mais recentes de IA # Projeto de código aberto AI Java Serviços de MCP ## Extração e limpeza de documentos

5 meses atrás

018.3K

Analise automaticamente o conteúdo do PDF e extraia texto e tabelas de serviços de código aberto

Introdução abrangente Analisa automaticamente o layout de documentos PDF, identifica texto, títulos, imagens, tabelas, fórmulas e outros elementos na página e determina sua ordem correta. A ferramenta oferece suporte à funcionalidade de OCR e pode converter PDFs digitalizados em texto pesquisável. Ela é executada no Docker e oferece dois modelos...

Recursos mais recentes de IA # Projeto de código aberto AI Java # OCR # Extração e limpeza de documentos

5 meses atrás

018.7K

Converta vários arquivos para o formato Markdown gratuitamente com base em Workers AI

Introdução geral O serverless-markdown-convertor é uma ferramenta gratuita e de código aberto, baseada no Cloudflare Worker e no Workers AI, que converte uma grande variedade de arquivos em Markdow...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Extração e limpeza de documentos

6 meses atrás

016.9K

GPT-Crawler: rastreamento automático do conteúdo do site para gerar documentos da base de conhecimento

Introdução geral O GPT-Crawler é uma ferramenta de código aberto desenvolvida pela equipe do BuilderIO e hospedada no GitHub. Ele rastreia o conteúdo da página inserindo um ou mais URLs de sites, gerando arquivos de conhecimento estruturado (output.jso...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Extração e limpeza de documentos

3 meses atrás

019.3K

pure.md: insira "pure.md/" na frente do URL para extrair o texto limpo.

Introdução geral O pure.md é uma ferramenta para agentes e desenvolvedores de IA que se concentra na conversão rápida de conteúdo ou arquivos da Web para o formato Markdown. Ele contorna as restrições anti-buscadores por meio de serviços de proxy, extrai os dados principais de uma página da Web e gera um arquivo Markdown limpo ...

Recursos mais recentes de IA # Serviços abertos de IA # Extração e limpeza de documentos

6 meses atrás

017.9K

Cloudsquid: faça upload de documentos e descreva os requisitos para a extração inteligente de dados estruturados

Introdução geral A Cloudsquid é uma empresa fundada em 2023 em Berlim, Alemanha, com foco na simplificação do processamento de documentos com inteligência artificial. Seu principal produto é uma plataforma on-line de extração de dados que permite aos usuários simplesmente carregar documentos como PDFs, imagens, áudio, vídeo etc. e simplesmente declarar que precisam extrair...

Recursos mais recentes de IA # Extração e limpeza de documentos

6 meses atrás

017.2K

PDF Craft: documentos digitalizados em PDF para ferramentas de código aberto Markdown

Introdução geral O PDF Craft é uma ferramenta de código aberto projetada para digitalizar PDFs de livros e convertê-los para o formato Markdown. Ela foi desenvolvida pelo oomol-lab e está hospedada no GitHub para usuários que gostam de organizar seus livros eletrônicos. A ferramenta funciona por meio desta ...

Recursos mais recentes de IA # Projeto de código aberto AI Java # OCR # Extração e limpeza de documentos

6 meses atrás

021K

Supametas.AI: extração de dados não estruturados em dados altamente disponíveis do LLM

Introdução abrangente O Supametas.AI é uma plataforma de processamento de dados especializada em organizar a desordem de páginas da Web, documentos, áudio e vídeo em dados estruturados que a IA pode usar. Ele suporta a coleta de dados de várias fontes, incluindo links da Web, APIs, arquivos locais etc., e a saída como JSON ...

Recursos mais recentes de IA # Serviços abertos de IA # Extração e limpeza de documentos

6 meses atrás

016.7K

MarkPDFDown: converte PDF em Markdown com base em um modelo multimodal

Introdução geral O MarkPDFDown é uma ferramenta de código aberto. Ela usa o Multimodal Big Language Model para converter arquivos PDF em formato Markdown. O desenvolvedor é jorben, usuário do GitHub. O objetivo dessa ferramenta é simples: tornar os documentos PDF ...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Extração e limpeza de documentos

6 meses atrás

018.5K

SmolDocling: um modelo de linguagem visual para o processamento eficiente de documentos em um pequeno volume

Introdução abrangente O SmolDocling é um Modelo de Linguagem Visual (VLM) desenvolvido pela equipe do ds4sd em colaboração com a IBM, desenvolvido com base no SmolVLM-256M e hospedado na plataforma Hugging Face. Seu tamanho é pequeno, apenas ...

Recursos mais recentes de IA # Projeto de código aberto AI Java # OCR # Extração e limpeza de documentos

6 meses atrás

017.5K

Flying Paddle PP-TableMagic: extração de informações estruturadas para tabelas complexas

O objetivo do reconhecimento de tabelas é analisar tabelas em imagens, identificar com precisão as estruturas das tabelas e os locais das células e reduzi-las a formatos de tabelas estruturadas (por exemplo, HTML). Na atual era da informação, uma grande quantidade de dados tabulares importantes ainda existe em um estado não estruturado (por exemplo, documentos digitalizados com imagens de tabelas estatísticas...).

Recursos mais recentes de IA # Projeto de código aberto AI Java # Extração e limpeza de documentos

6 meses atrás

019.5K

Mistral OCR: 94,89% Precisão geral, 1000 páginas/30 segundos, apenas US$ 1

Na longa história da civilização humana, cada salto na forma como as informações são adquiridas e analisadas contribuiu profundamente para o progresso social. Desde os antigos hieróglifos, passando pelo papiro portátil, até o surgimento posterior da prensa tipográfica e a atual onda digital, cada inovação tecnológica expandiu enormemente o paradigma da disseminação do conhecimento humano...

Recursos mais recentes de IA # Serviços abertos de IA # OCR # Extração e limpeza de documentos

7 meses atrás

020.9K

Firecrawl MCP Server：基于 Firecrawl 的网页爬虫 MCP 服务

Servidor MCP Firecrawl: Serviço MCP de rastreador da Web baseado no Firecrawl

Introdução geral O Firecrawl MCP Server é uma ferramenta de código aberto desenvolvida pela MendableAI, com base na implementação do protocolo Model Context Protocol (MCP), com o Firecrawl A...

Recursos mais recentes de IA # Projeto de código aberto AI Java Serviços de MCP ## Extração e limpeza de documentos

6 meses atrás

020.3K

olmOCR: conversão de documentos PDF em texto, suporte a tabelas, fórmulas e reconhecimento de conteúdo manuscrito

Introdução geral O olmOCR é uma ferramenta de código aberto desenvolvida pela equipe do AllenNLP no Allen Institute for Artificial Intelligence (AI2) que se concentra na conversão de arquivos PDF...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Extração e limpeza de documentos

7 meses atrás

020.3K

par_scrape: uma ferramenta de rastreamento para extração inteligente de dados da Web

Introdução geral O par_scrape é uma ferramenta de rastreamento da Web de código aberto baseada em Python, lançada no GitHub pelo desenvolvedor Paul Robello, criada para ajudar os usuários a extrair dados de forma inteligente de páginas da Web. Ele integra o Selenium...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Extração e limpeza de documentos

7 meses atrás

017.2K

PDF-Extract-Kit: Extraia a estrutura complexa do conteúdo do PDF da ferramenta de código aberto

Introdução abrangente O PDF-Extract-Kit é um projeto de código aberto desenvolvido pela equipe do OpenDataLab, com foco na extração eficiente de conteúdo de alta qualidade de documentos PDF complexos e diversos. Ele integra tecnologia avançada de análise de documentos para oferecer suporte à detecção de layout, reconhecimento de fórmulas ...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Extração e limpeza de documentos

7 meses atrás

029.8K

Crawl4LLM: uma ferramenta eficiente de rastreamento da Web para pré-treinamento de LLM

Introdução abrangente O Crawl4LLM é um projeto de código-fonte aberto desenvolvido em conjunto pela Universidade de Tsinghua e pela Universidade Carnegie Mellon, com foco na otimização da eficiência do rastreamento da Web para pré-treinamento de modelos grandes (LLM). Ele reduz significativamente o rastreamento ineficaz por meio da seleção inteligente de dados da Web de alta qualidade, alegando ser capaz de rastrear originalmente 1...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Extração e limpeza de documentos

7 meses atrás

017.5K

Markdownify MCP Server：基于MCP协议将各种内容转换为Markdown格式

Markdownify MCP Server: converte vários conteúdos no formato Markdown com base no protocolo MCP.

Introdução geral O Markdownify MCP Server é uma ferramenta de código aberto baseada no Model Context Protocol, hospedada no GitHub pelo desenvolvedor Zach Caceres ...

Recursos mais recentes de IA # Projeto de código aberto AI Java Serviços de MCP ## Extração e limpeza de documentos

6 meses atrás

019.2K

CodeWeaver: gere automaticamente documentos Markdown a partir da estrutura e do conteúdo do código.

Introdução geral O CodeWeaver é uma ferramenta de linha de comando projetada para criar bibliotecas de código em documentos Markdown únicos e fáceis de navegar. Ele gera uma representação estruturada da hierarquia de arquivos de um projeto, examinando recursivamente os diretórios e incorporando o conteúdo de cada arquivo em blocos de código. Essa ferramenta...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Extração e limpeza de documentos

7 meses atrás

017.2K

Kreuzberg: ferramenta de código aberto para extrair texto de qualquer documento

Introdução geral Kreuzberg é uma biblioteca para simplificar a extração de texto de arquivos PDF, projetada para fornecer uma solução de extração de texto simples e sem complicações. A biblioteca é especialmente adequada para RAG (Retrieval-Augmented Generatio...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Extração e limpeza de documentos

7 meses atrás

019.4K

Instrutor: uma biblioteca Python para simplificar fluxos de trabalho de saída estruturada para grandes modelos de linguagem

Introdução geral O Instructor é uma biblioteca Python popular projetada para processar a saída estruturada de modelos de linguagem grande (LLMs). Criada com base no Pydantic, ela fornece uma API simples, transparente e fácil de usar para gerenciar dados...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Extração e limpeza de documentos

7 meses atrás

016.3K

zChunk: uma estratégia genérica de fragmentação semântica baseada no Llama-70B

Introdução abrangente O zChunk é uma nova estratégia de fragmentação desenvolvida pela ZeroEntropy que visa a fornecer uma solução para a fragmentação semântica genérica. A estratégia se baseia no modelo Llama-70B, que otimiza o processo de fragmentação de documentos, solicitando a geração de blocos, garantindo que a recuperação de informações seja mantida em um alto nível...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Extração e limpeza de documentos

7 meses atrás

017.3K

Pulse: Soluções de negócios para processamento de documentos e extração de dados

Introdução abrangente O Pulse é uma plataforma inteligente voltada para o processamento de documentos e a extração de dados, projetada para ajudar empresas e desenvolvedores a analisar e processar com eficiência uma grande variedade de documentos complexos. Por meio de sua avançada tecnologia de visão computacional e processamento multimodal, o Pulse é capaz de extrair com precisão dados de textos, imagens, tabelas e muitos outros...

Recursos mais recentes de IA # Extração e limpeza de documentos

7 meses atrás

018.4K

Rowfill: extração em lote de informações estruturadas de documentos e análise automatizada

Introdução geral O Rowfill é uma plataforma de processamento de documentos de código aberto projetada para profissionais do conhecimento. Ele usa técnicas avançadas de inteligência artificial para extrair, analisar e processar dados de documentos, imagens e PDFs complexos. O Rowfill é compatível com o Native Large Language Model (LLM) e o Ope...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Análise de dados de IA # Extração e limpeza de documentos

8 meses atrás

016.7K

PPTX2MD: ferramenta especial para converter arquivos PPTX em Markdown

Introdução geral O PPTX2MD é uma ferramenta de código aberto projetada para converter arquivos PPTX do PowerPoint para o formato Markdown. Desenvolvida pelo usuário ssine do GitHub, a ferramenta suporta a preservação de títulos, listas, formatação de texto (por exemplo, negrito, itálico, cores e super...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Extração e limpeza de documentos

8 meses atrás

018.8K

Repomix: empacotamento da base de código em um arquivo de texto para recuperação de modelos grandes

Introdução geral O Repomix (anteriormente conhecido como Repopack) é uma ferramenta de código aberto projetada para empacotar toda uma base de código em um único arquivo compatível com IA. Essa ferramenta permite que os desenvolvedores disponibilizem facilmente sua base de código para grandes modelos de linguagem (como Claude, Chat...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Extração e limpeza de documentos

8 meses atrás

024.1K

Yek: leitura de arquivos de texto do repositório git e sua rápida divisão em pedaços para modelos grandes

Introdução geral O Yek é uma ferramenta rápida baseada em Rust para ler arquivos de texto de repositórios ou diretórios, dividi-los em pedaços e serializá-los para uso em modelos de linguagem grande (LLMs). Por padrão, a ferramenta usa a regra .gitignore para ignorar arquivos desnecessários e usa...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Extração e limpeza de documentos

8 meses atrás

021.1K

LlamaParse：Llamaindex推出的高品质解析文档，提取数据服务（每日免费提取1000页）

LlamaParse: serviço de análise de documentos e extração de dados de alta qualidade da Llamaindex (1.000 páginas gratuitas por dia).

Introdução abrangente O LlamaParse é uma poderosa ferramenta de análise de documentos que pode processar documentos complexos, como PDF, PowerPoint, Word e planilhas, e convertê-los em dados estruturados.

Recursos mais recentes de IA # Serviços abertos de IA # Extração e limpeza de documentos

8 meses atrás

018.8K

UnDatas.IO: serviço de API para análise precisa de vários tipos de dados não estruturados (pago)

Introdução abrangente O UnDatas.IO é uma plataforma voltada para a análise e o processamento de dados não estruturados. Ela utiliza tecnologia avançada para reconhecer automaticamente os layouts de documentos e classificar tabelas, imagens, fórmulas e textos, simplificando bastante o processo de processamento de dados. A plataforma não apenas economiza muito tempo na classificação de dados...

Recursos mais recentes de IA # Serviços abertos de IA # Extração e limpeza de documentos

8 meses atrás

016.9K

Zerox: PDF, DOCX, conversão de imagem para Markdown, OCR de alta precisão de modelo visual

Introdução geral O Zerox é um projeto de código aberto desenvolvido para converter PDF, DOCX, imagens e outros documentos para o formato Markdown por meio de modelos visuais. O projeto foi desenvolvido pela equipe getomni-ai e oferece uma solução simples e eficiente de OCR (reconhecimento óptico de caracteres).

Recursos mais recentes de IA # Projeto de código aberto AI Java # Extração e limpeza de documentos

8 meses atrás

024.2K

SemHash: implementação rápida de desduplicação de texto semântico para melhorar a eficiência da limpeza de dados

Introdução abrangente O SemHash é uma ferramenta leve e flexível para eliminar a duplicação de conjuntos de dados por similaridade semântica. Ele combina a rápida geração de incorporação do Model2Vec com a eficiente pesquisa de similaridade ANN (vizinho mais próximo aproximado) do Vicinity.SemHa...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Extração e limpeza de documentos

8 meses atrás

020K

Parseur: extração automatizada de dados de documentos, extração de texto estruturado de vários documentos

Descrição geral O Parseur é um software líder de extração de dados de IA projetado para ajudar os usuários a extrair automaticamente dados de texto de PDFs, e-mails e outros documentos. Com o Parseur, os usuários podem converter facilmente dados não estruturados em dados estruturados e enviá-los para vários aplicativos...

Recursos mais recentes de IA # Extração e limpeza de documentos

8 meses atrás

019.1K

Funções de IA: um serviço (API) para converter conteúdo de entrada em saídas estruturadas

Introdução abrangente O Weco AI Functions é uma plataforma avançada projetada para ajudar os usuários a criar e implementar rapidamente funções de IA. Com a simples descrição de tarefas, os usuários podem gerar padrões de saída estruturados com testes A/B e monitoramento observacional. A plataforma oferece suporte à prototipagem sem código...

Recursos mais recentes de IA # Serviços abertos de IA # Extração e limpeza de documentos

7 meses atrás

016.8K

NV Ingest: análise de documentos de formato complexo e extração de dados multimodais em metadados e texto

Introdução abrangente O NV Ingest (NVIDIA Ingest) é um conjunto de microsserviços de acesso antecipado projetado para analisar centenas de milhares de PDFs não estruturados complexos e confusos e outros documentos corporativos. Ele pode converter esses documentos em metadados e texto para serem incorporados à recuperação...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Extração e limpeza de documentos

8 meses atrás

021.2K

Trellis：转换非结构文档为结构化EXCEL格式数据，PDF快速转表格（付费）

Trellis: converte documentos não estruturados em dados estruturados no formato EXCEL, PDF de forma rápida (pago)

Introdução geral O Trellis é uma plataforma de dados focada na conversão de fontes de dados complexas e não estruturadas em formatos SQL estruturados. Por meio de seu avançado mecanismo de IA, o Trellis é capaz de processar uma ampla gama de fontes de dados, como documentos financeiros, chamadas de voz e e-mails, e convertê-los em dados que podem ser usados e...

Recursos mais recentes de IA # Extração e limpeza de documentos

8 meses atrás

016K

Ollama OCR: extração de texto de imagens usando modelos visuais no Ollama

Introdução abrangente O Ollama OCR é um poderoso kit de ferramentas de reconhecimento óptico de caracteres (OCR) que usa o modelo de linguagem visual de última geração fornecido pela plataforma Ollama para extrair texto de imagens. O projeto está disponível como um pacote Python e fornece um software Strea...

Recursos mais recentes de IA # Projeto de código aberto AI Java # OCR # Extração e limpeza de documentos

8 meses atrás

028.4K

llms.txt Generator：快速抓取网站内容并，生成LLM训练文本数据集

Gerador de llms.txt: capture rapidamente o conteúdo do site e gere conjuntos de dados de texto de treinamento LLM.

Introdução abrangente O llmstxt-generator é uma ferramenta profissional de extração e integração de conteúdo da Web dedicada à preparação de conjuntos de dados textuais de alta qualidade para treinamento e inferência em modelagem de linguagem ampla (LLM). A ferramenta foi desenvolvida pela Mendable AI usando o @firec...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Extração e limpeza de documentos

9 meses atrás

019.1K

Doc2X: ferramentas de reconhecimento e conversão de fórmulas de imagens de documentos, suporte para conversão em vários formatos e tradução de alta precisão

Introdução abrangente O Doc2X é uma poderosa ferramenta de conversão e reconhecimento de fórmulas de imagens de documentos, comprometida em fornecer soluções eficientes e inteligentes de processamento de documentos. Quer se trate de um trabalho de pesquisa acadêmica, um livro didático, um documento corporativo ou um relatório financeiro, o Doc2X pode identificar com precisão tabelas e...

Recursos mais recentes de IA # Serviços abertos de IA Tradução de IA ## Extração e limpeza de documentos

8 meses atrás

020.5K

ExtractThinker: extração e categorização de documentos em dados estruturados para otimizar o processo de manuseio de documentos

Introdução abrangente O ExtractThinker é uma ferramenta flexível de inteligência de documentos que extrai e classifica dados estruturados de documentos usando Modelos de Linguagem Grandes (LLMs), fornecendo um fluxo de trabalho de processamento de documentos semelhante ao ORM. Ele é compatível com vários carregadores de documentos, incluindo o Tess...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Extração e limpeza de documentos

9 meses atrás

018.7K

HtmlRAG：构建高效HTML检索增强生成系统，优化RAG系统中的HTML文档检索与处理

HtmlRAG: Building an Efficient HTML Retrieval Enhanced Generation System, Otimizando a recuperação e o processamento de documentos HTML em sistemas RAG

Introdução abrangente O HtmlRAG é um projeto inovador de código aberto voltado para o aprimoramento do processamento de documentos HTML em sistemas RAG (Retrieval Augmented Generation). O projeto apresenta uma nova abordagem que argumenta que o uso da formatação HTML em sistemas RAG é mais eficiente do que o texto simples. O projeto contém uma versão completa ...

Recursos mais recentes de IA # Extração e limpeza de documentos # Recuperação de conhecimento e estrutura RAG

9 meses atrás

019.6K

ScrapeGraphAI：一个提示词搞定网页抓取，无需编写规则智能网页内容提取工具

ScrapeGraphAI: Uma palavra pronta para rastreamento da Web, sem necessidade de escrever regras Ferramenta inteligente de extração de conteúdo da Web

Introdução abrangente O ScrapeGraphAI é uma biblioteca inovadora de raspagem da Web em Python que combina de forma inteligente a Modelagem de Linguagem Grande (LLM) e a Lógica Gráfica Direta para criar pipelines de raspagem para sites e documentos locais. O que torna essa ferramenta única é seu nível perfeito de simplicidade e potência...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Extração e limpeza de documentos

8 meses atrás

017.1K

Vision Parse: conversão inteligente de documentos PDF para o formato Markdown usando modelos de linguagem visual

Introdução abrangente O Vision Parse é uma ferramenta revolucionária de processamento de documentos, que combina de forma inteligente a mais avançada tecnologia de modelos de linguagem visual (Vision Language Models), a capacidade de converter documentos PDF de forma inteligente em um formato Markdown de alta qualidade...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Extração e limpeza de documentos

9 meses atrás

016.6K

Outlines：通过正则表达式、JSON或Pydantic模型生成结构化文本输出

Contornos: gerar saída de texto estruturado por meio de expressões regulares, JSON ou modelos Pydantic

Introdução geral Outlines é uma biblioteca de código aberto desenvolvida pela dottxt-ai para aprimorar a aplicação de modelos de linguagem ampla (LLMs) por meio da geração de texto estruturado. A biblioteca oferece suporte a uma variedade de integrações de modelos, incluindo OpenAI, transformadores...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Extração e limpeza de documentos

7 meses atrás

025.4K

MarkItDown: Ferramenta de conversão inteligente de documentos da Microsoft, converte vários arquivos para o formato Markdown

Introdução geral O MarkItDown é uma ferramenta Python desenvolvida pela Microsoft e projetada para converter vários arquivos e documentos de escritório no formato Markdown. A ferramenta é compatível com uma ampla variedade de tipos de arquivos, incluindo PDF, PowerPoint, Word, Excel, diagramas...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Extração e limpeza de documentos

9 meses atrás

019.5K

Chunkr: um serviço completo que usa modelos visuais para a ingestão de documentos e a divisão inteligente em blocos com base na hierarquia de parágrafos do texto

Introdução geral O Chunkr é uma API auto-hospedada dedicada à conversão de arquivos PDF, PPTX, DOCX e Excel em dados adequados para uso em RAG (Retrieval Augmented Generation) e LLM (Large Language Modelling). O projeto foi desenvolvido pela Lumina...

Recursos mais recentes de IA # Projeto de código aberto AI Java # OCR # Extração e limpeza de documentos

9 meses atrás

021.1K

GitIngest: Converta rapidamente repositórios de código do Github em texto adequado para compreensão do LLM

Introdução geral O GitIngest é uma ferramenta de código aberto projetada para transformar repositórios de código do GitHub em texto adequado para dicas do Modelo de Linguagem Grande (LLM). Com uma operação simples, os usuários podem extrair e formatar o conteúdo de qualquer repositório do GitHub para se adequar ao LLM ...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Extração e limpeza de documentos

9 meses atrás

023.9K

E2M: Converta vários formatos de arquivo para Markdown e obtenha facilmente uma formatação uniforme do documento

Introdução geral A E2M (Everything to Markdown) é uma biblioteca Python de código aberto projetada para converter uma ampla variedade de formatos de arquivo para o formato Markdown. A ferramenta suporta formatos como doc, docx, epub, html, htm, u...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Extração e limpeza de documentos

9 meses atrás

020.9K

Docling：支持多种格式文档解析并导出为Markdown和JSON，PDF支持OCR

Docling: suporte a uma variedade de formatos, análise de documentos e exportação para Markdown e JSON, suporte a PDF, OCR

Introdução abrangente O Docling é uma poderosa ferramenta de análise e exportação de documentos que suporta uma ampla gama de formatos de documentos, incluindo PDF, DOCX, PPTX, XLSX, Imagem, HTML, AsciiDoc e Markdown.

Recursos mais recentes de IA # Projeto de código aberto AI Java # OCR # Extração e limpeza de documentos

9 meses atrás

028.7K

MegaParse：解析各类型文档为LLM可用数据，完整保留文档中的表格、图片等所有信息

MegaParse: analisa cada tipo de documento em dados disponíveis no LLM, preservando todas as informações do documento, como tabelas e imagens, em sua totalidade.

Introdução geral O MegaParse é uma ferramenta poderosa e versátil de análise de documentos projetada para otimizar o processamento de dados para o Large Language Model (LLM). Não importa se você está trabalhando com texto, PDF, apresentações do PowerPoint ou documentos do Word, o MegaParse...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Extração e limpeza de documentos

10 meses atrás

020K

ViTLP: extração de dados estruturados de documentos PDF tipograficamente complexos e geração visualmente orientada de modelos pré-treinados para layout de texto

Introdução abrangente O ViTLP (Visually Guided Generative Text-Layout Pre-training for Document Intelligence) é um projeto de código aberto desenvolvido para passar...

Recursos mais recentes de IA # OCR # Extração e limpeza de documentos

10 meses atrás

018K

Trieve: uma infraestrutura de nuvem RAG de serviço completo que fornece pesquisa, recomendações e análises

Introdução geral O Trieve é uma infraestrutura abrangente desenvolvida pela Devflow, Inc., projetada para pesquisa, recomendações, RAG (Retrieval Augmented Generation) e análise. A plataforma é servida por meio de uma API e oferece suporte à auto-hospedagem para AWS, GCP, K...

Recursos mais recentes de IA # Serviços abertos de IA # Extração e limpeza de documentos

10 meses atrás

018.8K

pdf2htmlEX：PDF无损转换为HTML，保持文本格式，适用于学术论文和杂志排版

pdf2htmlEX: Conversão sem perdas de PDF para HTML, mantendo a formatação do texto, adequada para trabalhos acadêmicos e composição de revistas

Introdução abrangente pdf2htmlEX é uma ferramenta de código aberto projetada para converter arquivos PDF para o formato HTML, analisando o conteúdo do arquivo PDF e usando HTML + CSS para restaurar com precisão seu efeito visual, o documento PDF será convertido em um navegador ...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Extração e limpeza de documentos

10 meses atrás

018.3K

Maxun: uma plataforma de código aberto, sem código, que rastreia automaticamente os dados da Web e os converte em APIs ou planilhas

Introdução abrangente O Maxun é uma plataforma de extração de dados da Web de código aberto e sem código que permite aos usuários treinar robôs em minutos para rastrear automaticamente dados da Web e convertê-los em APIs ou planilhas. A plataforma oferece suporte a paginação e rolagem, adapta-se a alterações no layout do site, fornece rastreamento avançado de dados...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Extração e limpeza de documentos

9 meses atrás

019.6K

OmniParse: extrai quaisquer dados não estruturados de documentos/multimídia e os analisa em dados estruturados

Introdução geral O OmniParse é uma poderosa plataforma de análise e otimização de dados projetada para transformar quaisquer dados não estruturados em dados estruturados e acionáveis otimizados para a estrutura GenAI (Generative Artificial Intelligence). Não importa se você está trabalhando com documentos, tabelas, imagens, vídeos, arquivos de áudio ou...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Extração e limpeza de documentos

10 meses atrás

017.8K

Parsio: extraia automaticamente os principais dados estruturados de PDFs, e-mails e outros documentos

Descrição geral O Parsio é uma ferramenta de extração de dados de documentos e e-mails baseada em IA que extrai automaticamente dados estruturados de PDFs, e-mails e outros documentos. A plataforma fornece um analisador de PDF avançado e funcionalidade de OCR e oferece suporte a uma ampla variedade de tipos de documentos, incluindo...

Recursos mais recentes de IA # Extração e limpeza de documentos

10 meses atrás

018.1K

Chonkie: uma biblioteca leve de fragmentação de texto RAG

Introdução abrangente O Chonkie é uma biblioteca de fragmentação de texto RAG (Retrieval-Augmented Generation) leve e eficiente, criada para ajudar os desenvolvedores a fragmentar o texto de forma rápida e fácil. A biblioteca oferece suporte a uma variedade de métodos de fragmentação, incluindo ...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Extração e limpeza de documentos

7 meses atrás

020.8K

TextIn: ferramenta universal de conversão de documentos, PDF para Markdown

Introdução abrangente O TextIn é uma ferramenta profissional de PDF para Markdown projetada para ajudar os usuários a converter eficientemente documentos PDF para o formato Markdown. A ferramenta é compatível com vários formatos de arquivo, é fácil de operar, tem alta velocidade de conversão e mantém o formato e o conteúdo originais do PDF...

Recursos mais recentes de IA # Extração e limpeza de documentos

11 meses atrás

017.5K

文本提取API（text-extract-api）：视觉提取文本信息，匿名化的PDF提取工具

API de extração de texto (text-extract-api): extração visual de informações de texto, ferramenta de extração de PDF anônimo

Introdução abrangente A API de extração de texto (text-extract-api) é uma ferramenta avançada projetada para extrair e analisar o conteúdo de vários formatos de documentos (por exemplo, PDF, Word, PPTX etc.). A API utiliza tecnologia de ponta de reconhecimento óptico de caracteres (OCR) e Ol...

Recursos mais recentes de IA # Projeto de código aberto AI Java # OCR # Extração e limpeza de documentos

8 meses atrás

017.8K

Datalab：专用OCR识别AI模型，PDF转Markdown（开源/API）

Datalab: modelo de IA de reconhecimento de OCR dedicado, PDF para Markdown (código aberto/API)

Introdução abrangente O Datalab oferece uma variedade de modelos avançados de IA com foco em OCR, análise de layout, PDF para Markdown e muito mais. Esses modelos não são apenas de alto desempenho, mas também fáceis de usar e de código aberto. Os modelos Marker da plataforma podem ser usados com rapidez e precisão...

Recursos mais recentes de IA # Serviços abertos de IA # Projeto de código aberto AI Java # OCR

11 meses atrás

021.1K

MinerU：PDF文档提取转换为多模态Markdown格式，支持电子书OCR扫描

MinerU: extração e conversão de documentos PDF para o formato Markdown multimodal, suporte à digitalização OCR de e-books

Introdução abrangente O MinerU é uma ferramenta de extração de dados de código aberto desenvolvida pela equipe do OpenDataLab no Laboratório de Inteligência Artificial de Xangai, com foco na extração eficiente de conteúdo de documentos PDF complexos, páginas da Web e eBooks. Ele é capaz de obter PDFs multimodais contendo imagens, fórmulas, tabelas e outros elementos...

Recursos mais recentes de IA # Projeto de código aberto AI Java # OCR # Extração e limpeza de documentos

12 meses atrás

036.9K

Marker: converta rapidamente PDF em ferramentas de código aberto Markdown

Descrição geral O Marker é uma ferramenta de processamento de documentos baseada em aprendizagem profunda, projetada para converter arquivos PDF para o formato Markdown com rapidez e precisão. Ele oferece suporte a uma ampla variedade de tipos de documentos e é especialmente otimizado para a conversão de livros e artigos científicos.

Recursos mais recentes de IA # Projeto de código aberto AI Java # Extração e limpeza de documentos

7 meses atrás

031.8K

Mathpix: software de conversão estruturada de documentos PDF e imagens, suporte para multiterminais

Descrição geral O Mathpix é uma poderosa ferramenta de automação de documentos orientada por IA, projetada para pesquisadores, desenvolvedores e empresas. Ele converte PDFs e imagens de forma rápida e precisa em texto pesquisável, exportável e legível por máquina. O Mathpix oferece uma ampla gama de recursos...

Recursos mais recentes de IA # Serviços abertos de IA # Extração e limpeza de documentos

1 ano atrás

028.3K

Não estruturado: documentos não estruturados de pré-processamento de código aberto, ferramentas de processamento de dados não estruturados

Introdução abrangente O Unstructured-IO fornece um conjunto de componentes de código aberto para processamento e pré-processamento de imagens e documentos de texto, como PDF, HTML, documentos do Word etc. Seu principal objetivo é simplificar e otimizar os fluxos de trabalho de processamento de dados, especialmente para modelos de linguagem grandes (LL...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Extração e limpeza de documentos

1 ano atrás

021.3K

API do Reader: ferramenta de extração de conteúdo da Web, conversão de HTML para Markdown

Introdução geral O projeto Reader da Jina AI é uma ferramenta de código aberto (endereço de código aberto do Reader) que usa qualquer URL adicionando o prefixo https://r.jina.ai/转换成适合大型语言模型 (Large Languag...

Recursos mais recentes de IA # Projeto de código aberto AI Java # Extração e limpeza de documentos

1 ano atrás

027.2K

Não é isso.