Aprendizagem pessoal com IA
e orientação prática
豆包Marscode1
Total de 60 artigos

Tags: extração e limpeza de documentos Página 3

Outlines:通过正则表达式、JSON或Pydantic模型生成结构化文本输出-首席AI分享圈

Contornos: gerar saída de texto estruturado por meio de expressões regulares, JSON ou modelos Pydantic

Introdução geral Outlines é uma biblioteca de código aberto desenvolvida pela dottxt-ai para aprimorar a aplicação de modelos de linguagem grande (LLMs) por meio da geração de texto estruturado. A biblioteca é compatível com uma variedade de integrações de modelos, incluindo OpenAI, transformadores, llama.cpp, etc. Ela fornece prompts simples, mas poderosos, para proto...

MarkItDown:微软文档智能转换工具,转换各种文件为Markdown格式-首席AI分享圈

MarkItDown: Ferramenta de conversão inteligente de documentos da Microsoft, converte vários arquivos para o formato Markdown

Introdução geral O MarkItDown é uma ferramenta Python desenvolvida pela Microsoft e projetada para converter vários arquivos e documentos de escritório para o formato Markdown. A ferramenta oferece suporte a uma ampla variedade de tipos de arquivos, incluindo PDF, PowerPoint, Word, Excel, imagens (metadados EXIF e OCR), áudio (metadados EXIF e idioma...

Chunkr:使用视觉模型进行文档摄取以及根据文本段落层级智能分块的一体化服务-首席AI分享圈

Chunkr: um serviço completo que usa modelos visuais para a ingestão de documentos e a divisão inteligente em blocos com base na hierarquia de parágrafos do texto

Introdução abrangente O Chunkr é uma API auto-hospedada dedicada à conversão de arquivos PDF, PPTX, DOCX e Excel em dados adequados para uso em RAG (Retrieval Augmented Generation) e LLM (Large Language Modelling). Ela foi desenvolvida pela Lumina AI Inc. e usa modelos visuais avançados para a ingestão de documentos...

GitIngest:快速将Github代码仓库转为适合LLM理解的文本-首席AI分享圈

GitIngest: Converta rapidamente repositórios de código do Github em texto adequado para compreensão do LLM

Introdução geral O GitIngest é uma ferramenta de código aberto projetada para transformar repositórios de código do GitHub em texto adequado para dicas do Modelo de Linguagem Grande (LLM). Com uma operação simples, os usuários podem extrair e formatar o conteúdo de qualquer repositório do GitHub em texto adequado para o uso do LLM. A ferramenta oferece análise com um clique...

E2M:将多种文件格式转换为Markdown,轻松实现文档格式统一-首席AI分享圈

E2M: Converta vários formatos de arquivo para Markdown e obtenha facilmente uma formatação uniforme do documento

Introdução geral O E2M (Everything to Markdown) é uma biblioteca Python de código aberto projetada para converter uma ampla variedade de formatos de arquivo para o formato Markdown. A ferramenta é compatível com uma grande variedade de tipos de arquivos, incluindo doc, docx, epub, html, htm, url, pdf, ppt, pptx, mp3 e m4a. O E2M usa...

Docling:支持多种格式文档解析并导出为Markdown和JSON,PDF支持OCR-首席AI分享圈

Docling: suporte a uma variedade de formatos, análise de documentos e exportação para Markdown e JSON, suporte a PDF, OCR

Introdução abrangente O Docling é uma ferramenta avançada de análise e exportação de documentos que suporta uma ampla gama de formatos de documentos, incluindo PDF, DOCX, PPTX, XLSX, Imagem, HTML, AsciiDoc e Markdown. Ele pode analisar e exportar esses documentos para os formatos HTML, Markdown e JSON, com suporte para incorporação e...

MegaParse:解析各类型文档为LLM可用数据,完整保留文档中的表格、图片等所有信息-首席AI分享圈

MegaParse: analisa cada tipo de documento em dados disponíveis no LLM, preservando todas as informações do documento, como tabelas e imagens, em sua totalidade.

Introdução geral O MegaParse é uma ferramenta de análise de documentos poderosa e versátil, projetada para otimizar o processamento de dados para o Modelo de Linguagem Grande (LLM). Não importa se você está trabalhando com texto, PDF, apresentações do PowerPoint ou documentos do Word, o MegaParse facilita e garante que o processo de análise não seja...

ViTLP:排版复杂PDF文档提取结构化数据,视觉引导生成文本布局预训练模型-首席AI分享圈

ViTLP: extração de dados estruturados de documentos PDF tipograficamente complexos e geração visualmente orientada de modelos pré-treinados para layout de texto

Introdução abrangente O ViTLP (Visually Guided Generative Text-Layout Pre-training for Document Intelligence) é um projeto de código aberto que visa aprimorar o processamento de inteligência de documentos por meio de modelos de pré-treinamento de layout de texto generativo guiados visualmente. O projeto foi desenvolvido pela Veason-silverbul...

Trieve:提供搜索、推荐和分析的全方位RAG云基础设施-首席AI分享圈

Trieve: uma infraestrutura de nuvem RAG de serviço completo que fornece pesquisa, recomendações e análises

Introdução geral O Trieve é uma infraestrutura abrangente desenvolvida pela Devflow, Inc., projetada para pesquisa, recomendações, RAG (Retrieval Augmented Generation) e análise. A plataforma é servida por meio de uma API, suporta auto-hospedagem e está disponível para ambientes como AWS, GCP, Kubernetes e Docker Compose....

pdf2htmlEX:PDF无损转换为HTML,保持文本格式,适用于学术论文和杂志排版-首席AI分享圈

pdf2htmlEX: Conversão sem perdas de PDF para HTML, mantendo a formatação do texto, adequada para trabalhos acadêmicos e composição de revistas

Introdução abrangente pdf2htmlEX é uma ferramenta de código aberto projetada para converter arquivos PDF para o formato HTML, analisando o conteúdo dos arquivos PDF e usando HTML + CSS para restaurar com precisão seu efeito visual, os documentos PDF em um navegador podem ser visualizados diretamente na página da Web. A ferramenta é particularmente adequada para conter um grande número de arquivos ...

Maxun:开源无代码平台,自动抓取网页数据并转换为API或电子表格-首席AI分享圈

Maxun: uma plataforma de código aberto, sem código, que rastreia automaticamente os dados da Web e os converte em APIs ou planilhas

Introdução abrangente O Maxun é uma plataforma de extração de dados da Web sem código aberto que permite aos usuários treinar robôs em minutos para rastrear automaticamente os dados da Web e convertê-los em APIs ou planilhas. A plataforma suporta paginação e rolagem, pode se adaptar a alterações no layout do site, oferece recursos avançados de rastreamento de dados para...

OmniParse:从文档/多媒体中提取任何非结构化数据解析为结构化数据-首席AI分享圈

OmniParse: extrai quaisquer dados não estruturados de documentos/multimídia e os analisa em dados estruturados

Introdução geral O OmniParse é uma poderosa plataforma de análise e otimização de dados projetada para transformar quaisquer dados não estruturados em dados estruturados e acionáveis, otimizados para a estrutura GenAI (Generative Artificial Intelligence). Quer esteja trabalhando com documentos, tabelas, imagens, vídeos, arquivos de áudio ou conteúdo da Web,...

Parsio:自动从 PDF、电子邮件和其他文档中提取关键结构化数据-首席AI分享圈

Parsio: extraia automaticamente os principais dados estruturados de PDFs, e-mails e outros documentos

Introdução geral O Parsio é uma ferramenta de extração de dados de documentos e e-mails baseada em IA que extrai automaticamente dados estruturados de PDFs, e-mails e outros documentos. A plataforma oferece um analisador de PDF avançado e recursos de OCR, além de suportar uma ampla variedade de tipos de documentos, incluindo faturas, cartões de visita e identidades...

Chonkie: uma biblioteca leve de fragmentação de texto RAG

Introdução geral O Chonkie é uma biblioteca de fragmentação de texto RAG (Retrieval-Augmented Generation) leve e eficiente, criada para ajudar os desenvolvedores a fragmentar o texto de forma rápida e fácil. A biblioteca oferece suporte a uma variedade de métodos de fragmentação, incluindo a fragmentação baseada em tokens, palavras, frases e similaridade semântica...

TextIn:通用文档转换,PDF转Markdown工具-首席AI分享圈

TextIn: ferramenta universal de conversão de documentos, PDF para Markdown

Introdução abrangente O TextIn é uma ferramenta profissional de PDF para Markdown projetada para ajudar os usuários a converter eficientemente documentos PDF para o formato Markdown. A ferramenta é compatível com vários formatos de arquivo, é fácil de operar, tem velocidade de conversão rápida e é capaz de manter o formato e o conteúdo originais do PDF para aumentar a eficiência do processamento de documentos. Quer se trate de um ...

文本提取API(text-extract-api):视觉提取文本信息,匿名化的PDF提取工具-首席AI分享圈

API de extração de texto (text-extract-api): extração visual de informações de texto, ferramenta de extração de PDF anônimo

Descrição geral A API de extração de texto (text-extract-api) é uma ferramenta avançada projetada para extrair e analisar o conteúdo de uma variedade de formatos de documentos (por exemplo, PDF, Word, PPTX etc.). A API utiliza a tecnologia de reconhecimento óptico de caracteres (OCR) de última geração e modelos compatíveis com Ollama para poder pegar qualquer documento ou imagem...

Datalab:专用OCR识别AI模型,PDF转Markdown(开源/API)-首席AI分享圈

Datalab: modelo de IA de reconhecimento de OCR dedicado, PDF para Markdown (código aberto/API)

Introdução abrangente O Datalab oferece uma variedade de modelos avançados de IA com foco em OCR, análise de layout, PDF para Markdown e muito mais. Esses modelos não são apenas de alto desempenho, mas também fáceis de usar e de código aberto. Os modelos Marker da plataforma podem converter PDF em Markdown de forma rápida e precisa, incluindo tabelas...

MinerU:PDF文档提取转换为多模态Markdown格式,支持电子书OCR扫描-首席AI分享圈

MinerU: extração e conversão de documentos PDF para o formato Markdown multimodal, suporte à digitalização OCR de e-books

Introdução abrangente O MinerU é uma ferramenta de extração de dados de código aberto desenvolvida pela equipe do OpenDataLab no Laboratório de Inteligência Artificial de Xangai, com foco na extração eficiente de conteúdo de documentos PDF complexos, páginas da Web e eBooks. Ele pode converter documentos PDF multimodais que contenham imagens, fórmulas, tabelas e outros elementos em m...

Marker:快速将PDF转换为Markdown的开源工具-首席AI分享圈

Marker: converta rapidamente PDF em ferramentas de código aberto Markdown

Introdução geral O Marker é uma ferramenta de processamento de documentos baseada em aprendizagem profunda, projetada para converter arquivos PDF para o formato Markdown com rapidez e precisão. Ele oferece suporte a uma ampla variedade de tipos de documentos e é especialmente otimizado para a conversão de livros e artigos científicos. O Marker é capaz de remover conteúdo redundante, como cabeçalhos e rodapés, formatar tabelas e...

pt_BRPortuguês do Brasil