Aprendizagem pessoal com IA
e orientação prática
Beanbag Marscode1
Total de 66 artigos

Tags: extração e limpeza de documentos Página 4

Chonkie: uma biblioteca leve de fragmentação de texto RAG

Introdução geral O Chonkie é uma biblioteca de fragmentação de texto RAG (Retrieval-Augmented Generation) leve e eficiente, criada para ajudar os desenvolvedores a fragmentar o texto de forma rápida e fácil. A biblioteca oferece suporte a uma variedade de métodos de fragmentação, incluindo a fragmentação baseada em tokens, palavras, frases e similaridade semântica...

TextIn:通用文档转换,PDF转Markdown工具-首席AI分享圈

TextIn: ferramenta universal de conversão de documentos, PDF para Markdown

Introdução abrangente O TextIn é uma ferramenta profissional de PDF para Markdown projetada para ajudar os usuários a converter eficientemente documentos PDF para o formato Markdown. A ferramenta é compatível com vários formatos de arquivo, é fácil de operar, tem velocidade de conversão rápida e é capaz de manter o formato e o conteúdo originais do PDF para aumentar a eficiência do processamento de documentos. Quer se trate de um ...

文本提取API(text-extract-api):视觉提取文本信息,匿名化的PDF提取工具-首席AI分享圈

API de extração de texto (text-extract-api): extração visual de informações de texto, ferramenta de extração de PDF anônimo

Descrição geral A API de extração de texto (text-extract-api) é uma ferramenta avançada projetada para extrair e analisar o conteúdo de uma variedade de formatos de documentos (por exemplo, PDF, Word, PPTX etc.). A API utiliza a tecnologia de reconhecimento óptico de caracteres (OCR) de última geração e modelos compatíveis com Ollama para poder pegar qualquer documento ou imagem...

Datalab:专用OCR识别AI模型,PDF转Markdown(开源/API)-首席AI分享圈

Datalab: modelo de IA de reconhecimento de OCR dedicado, PDF para Markdown (código aberto/API)

Introdução abrangente O Datalab oferece uma variedade de modelos avançados de IA com foco em OCR, análise de layout, PDF para Markdown e muito mais. Esses modelos não são apenas de alto desempenho, mas também fáceis de usar e de código aberto. Os modelos Marker da plataforma podem converter PDF em Markdown de forma rápida e precisa, incluindo tabelas...

MinerU:PDF文档提取转换为多模态Markdown格式,支持电子书OCR扫描-首席AI分享圈

MinerU: extração e conversão de documentos PDF para o formato Markdown multimodal, suporte à digitalização OCR de e-books

Introdução abrangente O MinerU é uma ferramenta de extração de dados de código aberto desenvolvida pela equipe do OpenDataLab no Laboratório de Inteligência Artificial de Xangai, com foco na extração eficiente de conteúdo de documentos PDF complexos, páginas da Web e eBooks. Ele pode converter documentos PDF multimodais que contenham imagens, fórmulas, tabelas e outros elementos em m...

Marker:快速将PDF转换为Markdown的开源工具-首席AI分享圈

Marker: converta rapidamente PDF em ferramentas de código aberto Markdown

Introdução geral O Marker é uma ferramenta de processamento de documentos baseada em aprendizagem profunda, projetada para converter arquivos PDF para o formato Markdown com rapidez e precisão. Ele oferece suporte a uma ampla variedade de tipos de documentos e é especialmente otimizado para a conversão de livros e artigos científicos. O Marker é capaz de remover conteúdo redundante, como cabeçalhos e rodapés, formatar tabelas e...

Mathpix:PDF和图片文档结构化转换软件,支持多终端-首席AI分享圈

Mathpix: software de conversão estruturada de documentos PDF e imagens, suporte para multiterminais

Introdução geral O Mathpix é uma poderosa ferramenta de automação de documentos orientada por IA, projetada para pesquisadores, desenvolvedores e empresas. Ele converte PDFs e imagens de forma rápida e precisa em texto pesquisável, exportável e legível por máquina. O Mathpix oferece uma ampla variedade de recursos, incluindo reconhecimento de fórmulas matemáticas, LaT...

Unstructured:开源预处理非结构化文档,无结构数据处理的利器-首席AI分享圈

Não estruturado: documentos não estruturados de pré-processamento de código aberto, ferramentas de processamento de dados não estruturados

Introdução abrangente O Unstructured-IO fornece um conjunto de componentes de código aberto para processamento e pré-processamento de imagens e documentos de texto, como PDF, HTML, documentos do Word etc. O Unstructured-IO fornece um conjunto de componentes de código aberto para processamento e pré-processamento de imagens e documentos de texto, como PDF, HTML, documentos do Word etc. Seu principal objetivo é simplificar e otimizar os fluxos de trabalho de processamento de dados, especialmente para aplicativos de modelo de linguagem grande (LLM), para fornecer suporte. Seu principal objetivo é simplificar e otimizar os fluxos de trabalho de processamento de dados, especialmente para aplicativos de modelo de linguagem grande (LLM) para fornecer suporte.

Reader API:网页内容提取工具,HTML转换为Markdown格式-首席AI分享圈

API do Reader: ferramenta de extração de conteúdo da Web, conversão de HTML para Markdown

Introdução abrangente O projeto Reader da Jina AI é uma ferramenta de código aberto (endereço de código aberto do Reader), pode ser qualquer URL adicionando o prefixo https://r.jina.ai/转换成适合大型语言模型 (Large Language Models, LLM), formato de entrada, suporte para o modo de fluxo dinâmico e leitura de imagens...

pt_BRPortuguês do Brasil