Extração e limpeza de documentos

Total de 67 artigos
OneFileLLM:整合多种数据源为单一文本文件

OneFileLLM: integração de várias fontes de dados em um único arquivo de texto

Introdução abrangente O OneFileLLM é uma ferramenta de linha de comando de código aberto projetada para consolidar várias fontes de dados em um único arquivo de texto para facilitar a entrada em modelos de linguagem grande (LLMs). Ele é compatível com o processamento de repositórios do GitHub, artigos do ArXiv, transcrições de vídeos do YouTube,...
4 meses atrás
01.4K
Chatlog:提取和查询微信聊天记录的开源工具

Chatlog: ferramenta de código aberto para extrair e consultar os registros de bate-papo do WeChat

Introdução geral O Chatlog é uma ferramenta de código aberto que se concentra na extração e consulta de registros de bate-papo do banco de dados local do WeChat. Ele é compatível com as versões 3.x e 4.0 do WeChat, abrangendo os sistemas Windows e macOS. Os usuários podem usar a linha de comando, a interface de terminal ou o H...
4 meses atrás
01.9K
VOP:提取复杂图表与数学公式的OCR工具

VOP: ferramenta de OCR para extração de diagramas complexos e fórmulas matemáticas

Introdução abrangente O Versatile OCR Program é uma ferramenta de reconhecimento óptico de caracteres (OCR) de código aberto projetada para trabalhar com documentos acadêmicos e educacionais complexos. Ele pode extrair texto, tabelas, fórmulas matemáticas, diagramas e esquemas de PDFs, imagens e outros documentos e gerar...
4 meses atrás
01.4K
DevDocs:快速抓取并整理技术文档的MCP服务

DevDocs: um serviço MCP para rastrear e organizar rapidamente a documentação técnica

Introdução geral O DevDocs é uma ferramenta de código aberto totalmente gratuita desenvolvida pela equipe da CyberAGI e hospedada no GitHub. Projetada para programadores e desenvolvedores de software, ela começa com o URL de um documento técnico, rastreia automaticamente as páginas relevantes e as organiza em um ma...
4 meses atrás
01.4K
自动解析PDF内容并提取文字与表格的开源服务

Analise automaticamente o conteúdo do PDF e extraia texto e tabelas de serviços de código aberto

Introdução abrangente Analisa automaticamente o layout de documentos PDF, identifica texto, títulos, imagens, tabelas, fórmulas e outros elementos na página e determina sua ordem correta. A ferramenta oferece suporte à funcionalidade de OCR e pode converter PDFs digitalizados em texto pesquisável. Ela é executada no Docker e oferece dois modelos...
4 meses atrás
01.1K
pure.md:网址前插入“pure.md/”即可提取干净的文本

pure.md: insira "pure.md/" na frente do URL para extrair o texto limpo.

Introdução geral O pure.md é uma ferramenta para agentes e desenvolvedores de IA que se concentra na conversão rápida de conteúdo ou arquivos da Web para o formato Markdown. Ele contorna as restrições anti-buscadores por meio de serviços de proxy, extrai os dados principais de uma página da Web e gera um arquivo Markdown limpo ...
5 meses atrás
01.3K
Cloudsquid:上传文档并描述要求智能提取结构化数据

Cloudsquid: faça upload de documentos e descreva os requisitos para a extração inteligente de dados estruturados

Introdução geral A Cloudsquid é uma empresa fundada em 2023 em Berlim, Alemanha, com foco na simplificação do processamento de documentos com inteligência artificial. Seu principal produto é uma plataforma on-line de extração de dados que permite aos usuários simplesmente carregar documentos como PDFs, imagens, áudio, vídeo etc. e simplesmente declarar que precisam extrair...
5 meses atrás
01.2K
PDF Craft:PDF扫描文件转Markdown的开源工具

PDF Craft: documentos digitalizados em PDF para ferramentas de código aberto Markdown

Introdução geral O PDF Craft é uma ferramenta de código aberto projetada para digitalizar PDFs de livros e convertê-los para o formato Markdown. Ela foi desenvolvida pelo oomol-lab e está hospedada no GitHub para usuários que gostam de organizar seus livros eletrônicos. A ferramenta funciona por meio desta ...
5 meses atrás
01.3K
Supametas.AI:提取非结构化数据为LLM高可用数据

Supametas.AI: extração de dados não estruturados em dados altamente disponíveis do LLM

Introdução abrangente O Supametas.AI é uma plataforma de processamento de dados especializada em organizar a desordem de páginas da Web, documentos, áudio e vídeo em dados estruturados que a IA pode usar. Ele suporta a coleta de dados de várias fontes, incluindo links da Web, APIs, arquivos locais etc., e a saída como JSON ...
5 meses atrás
01.1K
飞桨 PP-TableMagic:复杂表格结构化信息提取神器

Flying Paddle PP-TableMagic: extração de informações estruturadas para tabelas complexas

O objetivo do reconhecimento de tabelas é analisar tabelas em imagens, identificar com precisão as estruturas das tabelas e os locais das células e reduzi-las a formatos de tabelas estruturadas (por exemplo, HTML). Na atual era da informação, uma grande quantidade de dados tabulares importantes ainda existe em um estado não estruturado (por exemplo, documentos digitalizados com imagens de tabelas estatísticas...).
5 meses atrás
02.2K
Mistral OCR:94.89%总体精度,1000 页/30秒,只需1美元

Mistral OCR: 94,89% Precisão geral, 1000 páginas/30 segundos, apenas US$ 1

Na longa história da civilização humana, cada salto na forma como as informações são adquiridas e analisadas contribuiu profundamente para o progresso social. Desde os antigos hieróglifos, passando pelo papiro portátil, até o surgimento posterior da prensa tipográfica e a atual onda digital, cada inovação tecnológica expandiu enormemente o paradigma da disseminação do conhecimento humano...
5 meses atrás
01.3K
PDF-Extract-Kit:提取复杂结构PDF内容的开源工具

PDF-Extract-Kit: Extraia a estrutura complexa do conteúdo do PDF da ferramenta de código aberto

Introdução abrangente O PDF-Extract-Kit é um projeto de código aberto desenvolvido pela equipe do OpenDataLab, com foco na extração eficiente de conteúdo de alta qualidade de documentos PDF complexos e diversos. Ele integra tecnologia avançada de análise de documentos para oferecer suporte à detecção de layout, reconhecimento de fórmulas ...
6 meses atrás
01.8K
Crawl4LLM:为LLM预训练提供的高效网页爬取工具

Crawl4LLM: uma ferramenta eficiente de rastreamento da Web para pré-treinamento de LLM

Introdução abrangente O Crawl4LLM é um projeto de código-fonte aberto desenvolvido em conjunto pela Universidade de Tsinghua e pela Universidade Carnegie Mellon, com foco na otimização da eficiência do rastreamento da Web para pré-treinamento de modelos grandes (LLM). Ele reduz significativamente o rastreamento ineficaz por meio da seleção inteligente de dados da Web de alta qualidade, alegando ser capaz de rastrear originalmente 1...
6 meses atrás
01.1K
CodeWeaver:将代码结构和内容自动生成Markdown文档

CodeWeaver: gere automaticamente documentos Markdown a partir da estrutura e do conteúdo do código.

Introdução geral O CodeWeaver é uma ferramenta de linha de comando projetada para criar bibliotecas de código em documentos Markdown únicos e fáceis de navegar. Ele gera uma representação estruturada da hierarquia de arquivos de um projeto, examinando recursivamente os diretórios e incorporando o conteúdo de cada arquivo em blocos de código. Essa ferramenta...
6 meses atrás
01.2K
Instructor:简化大语言模型结构化输出工作流的Python库

Instrutor: uma biblioteca Python para simplificar fluxos de trabalho de saída estruturada para grandes modelos de linguagem

Introdução geral O Instructor é uma biblioteca Python popular projetada para processar a saída estruturada de modelos de linguagem grande (LLMs). Criada com base no Pydantic, ela fornece uma API simples, transparente e fácil de usar para gerenciar dados...
6 meses atrás
01.4K
zChunk:基于Llama-70B的通用语义分块策略

zChunk: uma estratégia genérica de fragmentação semântica baseada no Llama-70B

Introdução abrangente O zChunk é uma nova estratégia de fragmentação desenvolvida pela ZeroEntropy que visa a fornecer uma solução para a fragmentação semântica genérica. A estratégia se baseia no modelo Llama-70B, que otimiza o processo de fragmentação de documentos, solicitando a geração de blocos, garantindo que a recuperação de informações seja mantida em um alto nível...
6 meses atrás
01.4K
Pulse:文档处理与数据提取的商业解决方案

Pulse: Soluções de negócios para processamento de documentos e extração de dados

Introdução abrangente O Pulse é uma plataforma inteligente voltada para o processamento de documentos e a extração de dados, projetada para ajudar empresas e desenvolvedores a analisar e processar com eficiência uma grande variedade de documentos complexos. Por meio de sua avançada tecnologia de visão computacional e processamento multimodal, o Pulse é capaz de extrair com precisão dados de textos, imagens, tabelas e muitos outros...
6 meses atrás
01.2K
Rowfill:批量提取文档结构化信息并自动化分析

Rowfill: extração em lote de informações estruturadas de documentos e análise automatizada

Introdução geral O Rowfill é uma plataforma de processamento de documentos de código aberto projetada para profissionais do conhecimento. Ele usa técnicas avançadas de inteligência artificial para extrair, analisar e processar dados de documentos, imagens e PDFs complexos. O Rowfill é compatível com o Native Large Language Model (LLM) e o Ope...
6 meses atrás
01.3K
PPTX2MD:将PPTX文件转换为Markdown的专用工具

PPTX2MD: ferramenta especial para converter arquivos PPTX em Markdown

Introdução geral O PPTX2MD é uma ferramenta de código aberto projetada para converter arquivos PPTX do PowerPoint para o formato Markdown. Desenvolvida pelo usuário ssine do GitHub, a ferramenta suporta a preservação de títulos, listas, formatação de texto (por exemplo, negrito, itálico, cores e super...
6 meses atrás
01.6K
Repomix:打包代码库为一个文本文件以便大模型检索

Repomix: empacotamento da base de código em um arquivo de texto para recuperação de modelos grandes

Introdução geral O Repomix (anteriormente conhecido como Repopack) é uma ferramenta de código aberto projetada para empacotar toda uma base de código em um único arquivo compatível com IA. Essa ferramenta permite que os desenvolvedores disponibilizem facilmente sua base de código para grandes modelos de linguagem (como Claude, Chat...
7 meses atrás
02.1K
Yek:读取git仓库文本文件并快速分块,以供大模型使用

Yek: leitura de arquivos de texto do repositório git e sua rápida divisão em pedaços para modelos grandes

Introdução geral O Yek é uma ferramenta rápida baseada em Rust para ler arquivos de texto de repositórios ou diretórios, dividi-los em pedaços e serializá-los para uso em modelos de linguagem grande (LLMs). Por padrão, a ferramenta usa a regra .gitignore para ignorar arquivos desnecessários e usa...
7 meses atrás
02K
UnDatas.IO:精准解析各类非结构化数据的API服务(付费)

UnDatas.IO: serviço de API para análise precisa de vários tipos de dados não estruturados (pago)

Introdução abrangente O UnDatas.IO é uma plataforma voltada para a análise e o processamento de dados não estruturados. Ela utiliza tecnologia avançada para reconhecer automaticamente os layouts de documentos e classificar tabelas, imagens, fórmulas e textos, simplificando bastante o processo de processamento de dados. A plataforma não apenas economiza muito tempo na classificação de dados...
7 meses atrás
01.4K
Zerox:PDF、DOCX、图像转换为Markdown,视觉模型高精度OCR

Zerox: PDF, DOCX, conversão de imagem para Markdown, OCR de alta precisão de modelo visual

Introdução geral O Zerox é um projeto de código aberto desenvolvido para converter PDF, DOCX, imagens e outros documentos para o formato Markdown por meio de modelos visuais. O projeto foi desenvolvido pela equipe getomni-ai e oferece uma solução simples e eficiente de OCR (reconhecimento óptico de caracteres).
7 meses atrás
01.6K
SemHash:快速实现语义文本去重,提升数据清理效率

SemHash: implementação rápida de desduplicação de texto semântico para melhorar a eficiência da limpeza de dados

Introdução abrangente O SemHash é uma ferramenta leve e flexível para eliminar a duplicação de conjuntos de dados por similaridade semântica. Ele combina a rápida geração de incorporação do Model2Vec com a eficiente pesquisa de similaridade ANN (vizinho mais próximo aproximado) do Vicinity.SemHa...
7 meses atrás
01.6K
Parseur:自动化提取文档数据,各类文档中提取结构化文本

Parseur: extração automatizada de dados de documentos, extração de texto estruturado de vários documentos

Descrição geral O Parseur é um software líder de extração de dados de IA projetado para ajudar os usuários a extrair automaticamente dados de texto de PDFs, e-mails e outros documentos. Com o Parseur, os usuários podem converter facilmente dados não estruturados em dados estruturados e enviá-los para vários aplicativos...
7 meses atrás
01.7K
AI Functions:将输入内容转换为结构化输出的(API)服务

Funções de IA: um serviço (API) para converter conteúdo de entrada em saídas estruturadas

Introdução abrangente O Weco AI Functions é uma plataforma avançada projetada para ajudar os usuários a criar e implementar rapidamente funções de IA. Com a simples descrição de tarefas, os usuários podem gerar padrões de saída estruturados com testes A/B e monitoramento observacional. A plataforma oferece suporte à prototipagem sem código...
6 meses atrás
01.5K
NV Ingest:解析复杂格式文档,提取多模态数据为元数据和文本

NV Ingest: análise de documentos de formato complexo e extração de dados multimodais em metadados e texto

Introdução abrangente O NV Ingest (NVIDIA Ingest) é um conjunto de microsserviços de acesso antecipado projetado para analisar centenas de milhares de PDFs não estruturados complexos e confusos e outros documentos corporativos. Ele pode converter esses documentos em metadados e texto para serem incorporados à recuperação...
7 meses atrás
02K
Trellis:转换非结构文档为结构化EXCEL格式数据,PDF快速转表格(付费)

Trellis: converte documentos não estruturados em dados estruturados no formato EXCEL, PDF de forma rápida (pago)

Introdução geral O Trellis é uma plataforma de dados focada na conversão de fontes de dados complexas e não estruturadas em formatos SQL estruturados. Por meio de seu avançado mecanismo de IA, o Trellis é capaz de processar uma ampla gama de fontes de dados, como documentos financeiros, chamadas de voz e e-mails, e convertê-los em dados que podem ser usados e...
7 meses atrás
01.4K
Ollama OCR:使用Ollama中视觉模型提取图像中的文本

Ollama OCR: extração de texto de imagens usando modelos visuais no Ollama

Introdução abrangente O Ollama OCR é um poderoso kit de ferramentas de reconhecimento óptico de caracteres (OCR) que usa o modelo de linguagem visual de última geração fornecido pela plataforma Ollama para extrair texto de imagens. O projeto está disponível como um pacote Python e fornece um software Strea...
7 meses atrás
02.9K
llms.txt Generator:快速抓取网站内容并,生成LLM训练文本数据集

Gerador de llms.txt: capture rapidamente o conteúdo do site e gere conjuntos de dados de texto de treinamento LLM.

Introdução abrangente O llmstxt-generator é uma ferramenta profissional de extração e integração de conteúdo da Web dedicada à preparação de conjuntos de dados textuais de alta qualidade para treinamento e inferência em modelagem de linguagem ampla (LLM). A ferramenta foi desenvolvida pela Mendable AI usando o @firec...
7 meses atrás
01.9K
Doc2X:文档图片公式识别与转换工具,支持多格式转换与高精度翻译

Doc2X: ferramentas de reconhecimento e conversão de fórmulas de imagens de documentos, suporte para conversão em vários formatos e tradução de alta precisão

Introdução abrangente O Doc2X é uma poderosa ferramenta de conversão e reconhecimento de fórmulas de imagens de documentos, comprometida em fornecer soluções eficientes e inteligentes de processamento de documentos. Quer se trate de um trabalho de pesquisa acadêmica, um livro didático, um documento corporativo ou um relatório financeiro, o Doc2X pode identificar com precisão tabelas e...
6 meses atrás
01.9K
ExtractThinker:提取和分类文档为结构化数据,优化文档处理流程

ExtractThinker: extração e categorização de documentos em dados estruturados para otimizar o processo de manuseio de documentos

Introdução abrangente O ExtractThinker é uma ferramenta flexível de inteligência de documentos que extrai e classifica dados estruturados de documentos usando Modelos de Linguagem Grandes (LLMs), fornecendo um fluxo de trabalho de processamento de documentos semelhante ao ORM. Ele é compatível com vários carregadores de documentos, incluindo o Tess...
7 meses atrás
01.7K
HtmlRAG:构建高效HTML检索增强生成系统,优化RAG系统中的HTML文档检索与处理

HtmlRAG: Building an Efficient HTML Retrieval Enhanced Generation System, Otimizando a recuperação e o processamento de documentos HTML em sistemas RAG

Introdução abrangente O HtmlRAG é um projeto inovador de código aberto voltado para o aprimoramento do processamento de documentos HTML em sistemas RAG (Retrieval Augmented Generation). O projeto apresenta uma nova abordagem que argumenta que o uso da formatação HTML em sistemas RAG é mais eficiente do que o texto simples. O projeto contém uma versão completa ...
7 meses atrás
01.8K
ScrapeGraphAI:一个提示词搞定网页抓取,无需编写规则智能网页内容提取工具

ScrapeGraphAI: Uma palavra pronta para rastreamento da Web, sem necessidade de escrever regras Ferramenta inteligente de extração de conteúdo da Web

Introdução abrangente O ScrapeGraphAI é uma biblioteca inovadora de raspagem da Web em Python que combina de forma inteligente a Modelagem de Linguagem Grande (LLM) e a Lógica Gráfica Direta para criar pipelines de raspagem para sites e documentos locais. O que torna essa ferramenta única é seu nível perfeito de simplicidade e potência...
7 meses atrás
01.5K
Vision Parse: conversão inteligente de documentos PDF para o formato Markdown usando modelos de linguagem visual

Vision Parse: conversão inteligente de documentos PDF para o formato Markdown usando modelos de linguagem visual

Introdução abrangente O Vision Parse é uma ferramenta revolucionária de processamento de documentos, que combina de forma inteligente a mais avançada tecnologia de modelos de linguagem visual (Vision Language Models), a capacidade de converter documentos PDF de forma inteligente em um formato Markdown de alta qualidade...
8 meses atrás
01.9K
Outlines:通过正则表达式、JSON或Pydantic模型生成结构化文本输出

Contornos: gerar saída de texto estruturado por meio de expressões regulares, JSON ou modelos Pydantic

Introdução geral Outlines é uma biblioteca de código aberto desenvolvida pela dottxt-ai para aprimorar a aplicação de modelos de linguagem ampla (LLMs) por meio da geração de texto estruturado. A biblioteca oferece suporte a uma variedade de integrações de modelos, incluindo OpenAI, transformadores...
6 meses atrás
01.7K
MarkItDown:微软文档智能转换工具,转换各种文件为Markdown格式

MarkItDown: Ferramenta de conversão inteligente de documentos da Microsoft, converte vários arquivos para o formato Markdown

Introdução geral O MarkItDown é uma ferramenta Python desenvolvida pela Microsoft e projetada para converter vários arquivos e documentos de escritório no formato Markdown. A ferramenta é compatível com uma ampla variedade de tipos de arquivos, incluindo PDF, PowerPoint, Word, Excel, diagramas...
8 meses atrás
02.4K
Chunkr:使用视觉模型进行文档摄取以及根据文本段落层级智能分块的一体化服务

Chunkr: um serviço completo que usa modelos visuais para a ingestão de documentos e a divisão inteligente em blocos com base na hierarquia de parágrafos do texto

Introdução geral O Chunkr é uma API auto-hospedada dedicada à conversão de arquivos PDF, PPTX, DOCX e Excel em dados adequados para uso em RAG (Retrieval Augmented Generation) e LLM (Large Language Modelling). O projeto foi desenvolvido pela Lumina...
8 meses atrás
02.6K
GitIngest:快速将Github代码仓库转为适合LLM理解的文本

GitIngest: Converta rapidamente repositórios de código do Github em texto adequado para compreensão do LLM

Introdução geral O GitIngest é uma ferramenta de código aberto projetada para transformar repositórios de código do GitHub em texto adequado para dicas do Modelo de Linguagem Grande (LLM). Com uma operação simples, os usuários podem extrair e formatar o conteúdo de qualquer repositório do GitHub para se adequar ao LLM ...
8 meses atrás
02.6K
MegaParse:解析各类型文档为LLM可用数据,完整保留文档中的表格、图片等所有信息

MegaParse: analisa cada tipo de documento em dados disponíveis no LLM, preservando todas as informações do documento, como tabelas e imagens, em sua totalidade.

Introdução geral O MegaParse é uma ferramenta poderosa e versátil de análise de documentos projetada para otimizar o processamento de dados para o Large Language Model (LLM). Não importa se você está trabalhando com texto, PDF, apresentações do PowerPoint ou documentos do Word, o MegaParse...
8 meses atrás
02.1K
Trieve:提供搜索、推荐和分析的全方位RAG云基础设施

Trieve: uma infraestrutura de nuvem RAG de serviço completo que fornece pesquisa, recomendações e análises

Introdução geral O Trieve é uma infraestrutura abrangente desenvolvida pela Devflow, Inc., projetada para pesquisa, recomendações, RAG (Retrieval Augmented Generation) e análise. A plataforma é servida por meio de uma API e oferece suporte à auto-hospedagem para AWS, GCP, K...
8 meses atrás
01.5K
pdf2htmlEX:PDF无损转换为HTML,保持文本格式,适用于学术论文和杂志排版

pdf2htmlEX: Conversão sem perdas de PDF para HTML, mantendo a formatação do texto, adequada para trabalhos acadêmicos e composição de revistas

Introdução abrangente pdf2htmlEX é uma ferramenta de código aberto projetada para converter arquivos PDF para o formato HTML, analisando o conteúdo do arquivo PDF e usando HTML + CSS para restaurar com precisão seu efeito visual, o documento PDF será convertido em um navegador ...
9 meses atrás
01.7K
Maxun:开源无代码平台,自动抓取网页数据并转换为API或电子表格

Maxun: uma plataforma de código aberto, sem código, que rastreia automaticamente os dados da Web e os converte em APIs ou planilhas

Introdução abrangente O Maxun é uma plataforma de extração de dados da Web de código aberto e sem código que permite aos usuários treinar robôs em minutos para rastrear automaticamente dados da Web e convertê-los em APIs ou planilhas. A plataforma oferece suporte a paginação e rolagem, adapta-se a alterações no layout do site, fornece rastreamento avançado de dados...
7 meses atrás
01.9K
OmniParse:从文档/多媒体中提取任何非结构化数据解析为结构化数据

OmniParse: extrai quaisquer dados não estruturados de documentos/multimídia e os analisa em dados estruturados

Introdução geral O OmniParse é uma poderosa plataforma de análise e otimização de dados projetada para transformar quaisquer dados não estruturados em dados estruturados e acionáveis otimizados para a estrutura GenAI (Generative Artificial Intelligence). Não importa se você está trabalhando com documentos, tabelas, imagens, vídeos, arquivos de áudio ou...
9 meses atrás
01.8K
Parsio:自动从 PDF、电子邮件和其他文档中提取关键结构化数据

Parsio: extraia automaticamente os principais dados estruturados de PDFs, e-mails e outros documentos

Descrição geral O Parsio é uma ferramenta de extração de dados de documentos e e-mails baseada em IA que extrai automaticamente dados estruturados de PDFs, e-mails e outros documentos. A plataforma fornece um analisador de PDF avançado e funcionalidade de OCR e oferece suporte a uma ampla variedade de tipos de documentos, incluindo...
9 meses atrás
01.9K
TextIn:通用文档转换,PDF转Markdown工具

TextIn: ferramenta universal de conversão de documentos, PDF para Markdown

Introdução abrangente O TextIn é uma ferramenta profissional de PDF para Markdown projetada para ajudar os usuários a converter eficientemente documentos PDF para o formato Markdown. A ferramenta é compatível com vários formatos de arquivo, é fácil de operar, tem alta velocidade de conversão e mantém o formato e o conteúdo originais do PDF...
9 meses atrás
01.7K
文本提取API(text-extract-api):视觉提取文本信息,匿名化的PDF提取工具

API de extração de texto (text-extract-api): extração visual de informações de texto, ferramenta de extração de PDF anônimo

Introdução abrangente A API de extração de texto (text-extract-api) é uma ferramenta avançada projetada para extrair e analisar o conteúdo de vários formatos de documentos (por exemplo, PDF, Word, PPTX etc.). A API utiliza tecnologia de ponta de reconhecimento óptico de caracteres (OCR) e Ol...
7 meses atrás
02K
Datalab:专用OCR识别AI模型,PDF转Markdown(开源/API)

Datalab: modelo de IA de reconhecimento de OCR dedicado, PDF para Markdown (código aberto/API)

Introdução abrangente O Datalab oferece uma variedade de modelos avançados de IA com foco em OCR, análise de layout, PDF para Markdown e muito mais. Esses modelos não são apenas de alto desempenho, mas também fáceis de usar e de código aberto. Os modelos Marker da plataforma podem ser usados com rapidez e precisão...
9 meses atrás
02K
MinerU:PDF文档提取转换为多模态Markdown格式,支持电子书OCR扫描

MinerU: extração e conversão de documentos PDF para o formato Markdown multimodal, suporte à digitalização OCR de e-books

Introdução abrangente O MinerU é uma ferramenta de extração de dados de código aberto desenvolvida pela equipe do OpenDataLab no Laboratório de Inteligência Artificial de Xangai, com foco na extração eficiente de conteúdo de documentos PDF complexos, páginas da Web e eBooks. Ele é capaz de obter PDFs multimodais contendo imagens, fórmulas, tabelas e outros elementos...
10 meses atrás
02.5K
Marker:快速将PDF转换为Markdown的开源工具

Marker: converta rapidamente PDF em ferramentas de código aberto Markdown

Descrição geral O Marker é uma ferramenta de processamento de documentos baseada em aprendizagem profunda, projetada para converter arquivos PDF para o formato Markdown com rapidez e precisão. Ele oferece suporte a uma ampla variedade de tipos de documentos e é especialmente otimizado para a conversão de livros e artigos científicos.
5 meses atrás
02.6K
Mathpix:PDF和图片文档结构化转换软件,支持多终端

Mathpix: software de conversão estruturada de documentos PDF e imagens, suporte para multiterminais

Descrição geral O Mathpix é uma poderosa ferramenta de automação de documentos orientada por IA, projetada para pesquisadores, desenvolvedores e empresas. Ele converte PDFs e imagens de forma rápida e precisa em texto pesquisável, exportável e legível por máquina. O Mathpix oferece uma ampla gama de recursos...
11 meses atrás
02.4K
Unstructured:开源预处理非结构化文档,无结构数据处理的利器

Não estruturado: documentos não estruturados de pré-processamento de código aberto, ferramentas de processamento de dados não estruturados

Introdução abrangente O Unstructured-IO fornece um conjunto de componentes de código aberto para processamento e pré-processamento de imagens e documentos de texto, como PDF, HTML, documentos do Word etc. Seu principal objetivo é simplificar e otimizar os fluxos de trabalho de processamento de dados, especialmente para modelos de linguagem grandes (LL...
11 meses atrás
02K