Extracción y limpieza de documentos

Total 67 artículos
OneFileLLM:整合多种数据源为单一文本文件

OneFileLLM: Integración de múltiples fuentes de datos en un único archivo de texto

Introducción completa OneFileLLM es una herramienta de línea de comandos de código abierto diseñada para consolidar múltiples fuentes de datos en un único archivo de texto para facilitar la entrada en grandes modelos lingüísticos (LLM). Permite procesar repositorios de GitHub, artículos de ArXiv, transcripciones de vídeos de YouTube,...
hace 4 meses
01.4K
Chatlog:提取和查询微信聊天记录的开源工具

Chatlog: herramienta de código abierto para extraer y consultar los registros de chat de WeChat

Introducción General Chatlog es una herramienta de código abierto que se centra en la extracción y consulta de registros de chat de la base de datos local de WeChat. Es compatible con las versiones 3.x y 4.0 de WeChat, tanto para sistemas Windows como macOS. Los usuarios pueden utilizar la línea de comandos, la interfaz de terminal o H...
hace 4 meses
01.9K
VOP:提取复杂图表与数学公式的OCR工具

VOP: herramienta de OCR para extraer diagramas complejos y fórmulas matemáticas

Introducción completa Versatile OCR Program es una herramienta de reconocimiento óptico de caracteres (OCR) de código abierto diseñada para trabajar con documentos académicos y educativos complejos. Puede extraer texto, tablas, fórmulas matemáticas, diagramas y esquemas de PDF, imágenes y otros documentos y generar...
hace 4 meses
01.4K
DevDocs:快速抓取并整理技术文档的MCP服务

DevDocs: un servicio MCP para rastrear y organizar rápidamente la documentación técnica

Introducción general DevDocs es una herramienta de código abierto completamente gratuita desarrollada por el equipo CyberAGI y alojada en GitHub. Diseñada para programadores y desarrolladores de software, parte de la URL de un documento técnico, rastrea automáticamente las páginas relevantes y las organiza en un conciso ma...
hace 4 meses
01.4K
自动解析PDF内容并提取文字与表格的开源服务

Analice automáticamente el contenido del PDF y extraiga el texto y las tablas de los servicios de código abierto

Introducción Completa Analiza automáticamente el diseño de documentos PDF, identifica texto, títulos, imágenes, tablas, fórmulas y otros elementos de la página, y determina su orden correcto. La herramienta es compatible con la funcionalidad OCR y puede convertir PDF escaneados en texto con capacidad de búsqueda. Se ejecuta en Docker y proporciona dos modelos...
hace 4 meses
01.1K
Cloudsquid:上传文档并描述要求智能提取结构化数据

Cloudsquid: cargue documentos y describa los requisitos para la extracción inteligente de datos estructurados

Introducción general Cloudsquid es una empresa fundada en 2023 en Berlín, Alemania, centrada en simplificar el procesamiento de documentos con inteligencia artificial. Su producto principal es una plataforma de extracción de datos en línea que permite a los usuarios simplemente subir documentos como PDF, imágenes, audio, vídeo, etc. y simplemente indicar que necesitan extraer...
hace 5 meses
01.2K
PDF Craft:PDF扫描文件转Markdown的开源工具

PDF Craft: herramientas de código abierto para convertir documentos PDF escaneados a Markdown

Introducción general PDF Craft es una herramienta de código abierto diseñada para escanear PDF de libros y convertirlos al formato Markdown. Fue desarrollado por oomol-lab y está alojado en GitHub para los usuarios que les gusta organizar sus libros electrónicos. La herramienta funciona a través de este ...
hace 5 meses
01.4K
Supametas.AI:提取非结构化数据为LLM高可用数据

Supametas.AI: Extracción de datos no estructurados en datos de alta disponibilidad LLM

Introducción Supametas.AI es una plataforma de procesamiento de datos que se especializa en la organización del desorden de páginas web, documentos, audio y vídeo en datos estructurados que la IA puede utilizar. Admite la recopilación de datos de múltiples fuentes, incluidos enlaces web, API, archivos locales, etc., y su posterior salida como JSON ...
hace 5 meses
01.1K
飞桨 PP-TableMagic:复杂表格结构化信息提取神器

Flying Paddle PP-TableMagic: extracción de información estructurada para tablas complejas

El objetivo del reconocimiento de tablas es analizar tablas en imágenes, identificar con precisión las estructuras de las tablas y la ubicación de las celdas, y reducirlas a formatos de tabla estructurados (por ejemplo, HTML). En la actual era de la información, una gran cantidad de datos tabulares importantes sigue existiendo en estado no estructurado (por ejemplo, documentos escaneados con imágenes de tablas estadísticas...).
hace 5 meses
02.3K
Mistral OCR:94.89%总体精度,1000 页/30秒,只需1美元

Mistral OCR: 94,89% Precisión global, 1.000 páginas/30 segundos, sólo 1 $.

En la larga historia de la civilización humana, cada salto en la forma de adquirir y analizar la información ha contribuido profundamente al progreso social. Desde los antiguos jeroglíficos hasta el papiro portátil, pasando por la posterior aparición de la imprenta y la actual ola digital, cada innovación tecnológica ha ampliado enormemente el paradigma de la difusión del conocimiento humano...
hace 5 meses
01.4K
PDF-Extract-Kit:提取复杂结构PDF内容的开源工具

PDF-Extract-Kit: Extraiga la compleja estructura del contenido PDF de la herramienta de código abierto

Introducción completa PDF-Extract-Kit es un proyecto de código abierto desarrollado por el equipo OpenDataLab , centrándose en la extracción eficiente de contenido de alta calidad a partir de documentos PDF complejos y diversos . Integra tecnología avanzada de análisis sintáctico de documentos para la detección de diseños, el reconocimiento de fórmulas ...
hace 6 meses
01.9K
Crawl4LLM:为LLM预训练提供的高效网页爬取工具

Crawl4LLM: una herramienta eficaz de rastreo web para el preentrenamiento de LLM

Introducción exhaustiva Crawl4LLM es un proyecto de código abierto desarrollado conjuntamente por la Universidad de Tsinghua y la Universidad Carnegie Mellon, centrado en optimizar la eficiencia del rastreo web para el preentrenamiento de grandes modelos (LLM). Reduce significativamente el rastreo ineficaz mediante la selección inteligente de datos web de alta calidad, afirmando ser capaz de rastrear originalmente 1...
hace 6 meses
01.2K
CodeWeaver:将代码结构和内容自动生成Markdown文档

CodeWeaver: Genera automáticamente documentos Markdown a partir de la estructura y el contenido del código.

Introducción general CodeWeaver es una herramienta de línea de comandos diseñada para entretejer bibliotecas de código en documentos Markdown únicos y fáciles de navegar. Genera una representación estructurada de la jerarquía de archivos de un proyecto escaneando recursivamente los directorios e incrustando el contenido de cada archivo en bloques de código. Esta herramienta...
hace 6 meses
01.2K
Instructor:简化大语言模型结构化输出工作流的Python库

Instructor: una biblioteca de Python que simplifica los flujos de trabajo de salida estructurados para grandes modelos lingüísticos.

Introducción general Instructor es una popular biblioteca de Python diseñada para procesar resultados estructurados de grandes modelos lingüísticos (LLM). Basada en Pydantic, proporciona una API sencilla, transparente y fácil de usar para gestionar datos...
hace 6 meses
01.4K
zChunk:基于Llama-70B的通用语义分块策略

zChunk: una estrategia genérica de fragmentación semántica basada en Llama-70B

Introducción general zChunk es una novedosa estrategia de chunking desarrollada por ZeroEntropy que pretende ofrecer una solución para el chunking semántico genérico. La estrategia se basa en el modelo Llama-70B, que optimiza el proceso de chunking de los documentos solicitando la generación de trozos, lo que garantiza que la recuperación de información se mantenga en un alto...
hace 6 meses
01.4K
Pulse:文档处理与数据提取的商业解决方案

Pulse: Soluciones empresariales para el tratamiento de documentos y la extracción de datos

Introducción general Pulse es una plataforma inteligente centrada en el procesamiento de documentos y la extracción de datos, diseñada para ayudar a las empresas y a los desarrolladores a analizar y procesar eficazmente una amplia gama de documentos complejos. Gracias a su avanzada tecnología de visión por ordenador y procesamiento multimodal, Pulse es capaz de extraer con precisión datos de texto, imágenes, tablas y...
hace 6 meses
01.2K
Rowfill:批量提取文档结构化信息并自动化分析

Rowfill: extracción por lotes de información estructurada de documentos y análisis automatizado

Introducción general Rowfill es una plataforma de procesamiento de documentos de código abierto diseñada para trabajadores del conocimiento. Utiliza técnicas avanzadas de inteligencia artificial para extraer, analizar y procesar datos de documentos complejos, imágenes y PDFs.Rowfill soporta Native Large Language Model (LLM) y Ope...
hace 6 meses
01.3K
PPTX2MD:将PPTX文件转换为Markdown的专用工具

PPTX2MD: Herramienta especial para convertir archivos PPTX a Markdown

Introducción general PPTX2MD es una herramienta de código abierto diseñada para convertir archivos PPTX de PowerPoint al formato Markdown. Desarrollada por el usuario de GitHub ssine, la herramienta permite conservar los encabezados, las listas, el formato del texto (por ejemplo, negrita, cursiva, colores y super...
hace 6 meses
01.6K
Repomix:打包代码库为一个文本文件以便大模型检索

Repomix: empaquetado de la base de código en un archivo de texto para la recuperación de modelos de gran tamaño.

Introducción general Repomix (antes conocido como Repopack) es una herramienta de código abierto diseñada para empaquetar todo un código base en un único archivo compatible con IA. Esta herramienta permite a los desarrolladores poner fácilmente su código base a disposición de grandes modelos lingüísticos (como Claude, Chat...
hace 7 meses
02.2K
Yek:读取git仓库文本文件并快速分块,以供大模型使用

Yek: lectura de archivos de texto de repositorios git y fragmentación rápida de modelos de gran tamaño

Introducción general Yek es una herramienta rápida basada en Rust para leer archivos de texto de repositorios o directorios, trocearlos y serializarlos para su uso en grandes modelos lingüísticos (LLM). La herramienta utiliza la regla .gitignore por defecto para omitir archivos innecesarios, y utiliza...
hace 7 meses
02K
LlamaParse:Llamaindex推出的高品质解析文档,提取数据服务(每日免费提取1000页)

LlamaParse: servicio de alta calidad de análisis sintáctico de documentos y extracción de datos de Llamaindex (1000 páginas al día gratuitas).

Introducción completa LlamaParse es una potente herramienta de análisis sintáctico de documentos que puede procesar documentos complejos como PDF, PowerPoint, documentos de Word y hojas de cálculo y convertirlos en datos estructurados.LlamaParse ofrece...
hace 7 meses
01.5K
UnDatas.IO:精准解析各类非结构化数据的API服务(付费)

UnDatas.IO: servicio API para el análisis preciso de diversos tipos de datos no estructurados (de pago)

Introducción completa UnDatas.IO es una plataforma centrada en el análisis sintáctico y el tratamiento de datos no estructurados. Utiliza tecnología avanzada para reconocer automáticamente el diseño de los documentos y clasificar tablas, imágenes, fórmulas y texto, simplificando enormemente el proceso de tratamiento de datos. La plataforma no sólo ahorra mucho tiempo en la clasificación de datos...
hace 7 meses
01.4K
Zerox:PDF、DOCX、图像转换为Markdown,视觉模型高精度OCR

Zerox: PDF, DOCX, conversión de imágenes a Markdown, modelo visual OCR de alta precisión

Introducción general Zerox es un proyecto de código abierto diseñado para convertir PDF, DOCX, imágenes y otros documentos a formato Markdown a través de modelos visuales. El proyecto ha sido desarrollado por el equipo getomni-ai y proporciona una solución OCR (Reconocimiento Óptico de Caracteres) sencilla y eficiente.
hace 7 meses
01.6K
SemHash:快速实现语义文本去重,提升数据清理效率

SemHash: implementación rápida de la deduplicación semántica de textos para mejorar la eficacia de la limpieza de datos

Introducción completa SemHash es una herramienta ligera y flexible para desduplicar conjuntos de datos por similitud semántica. Combina la rápida generación de incrustaciones de Model2Vec con la eficaz búsqueda de similitud RNA (vecino más cercano aproximado) de Vicinity.SemHa...
hace 7 meses
01.6K
Parseur:自动化提取文档数据,各类文档中提取结构化文本

Parseur: extracción automatizada de datos de documentos, extracción de texto estructurado a partir de varios documentos.

Descripción general Parseur es un software líder de extracción de datos de IA diseñado para ayudar a los usuarios a extraer automáticamente datos de texto de PDF, correos electrónicos y otros documentos. Con Parseur, los usuarios pueden convertir fácilmente datos no estructurados en datos estructurados y enviarlos a varias aplicaciones....
hace 7 meses
01.8K
AI Functions:将输入内容转换为结构化输出的(API)服务

Funciones AI: un servicio (API) para convertir contenidos de entrada en resultados estructurados.

Introducción completa Weco AI Functions es una potente plataforma diseñada para ayudar a los usuarios a crear y desplegar rápidamente funciones de IA. Mediante la simple descripción de tareas, los usuarios pueden generar patrones de salida estructurados con pruebas A/B y supervisión observacional. La plataforma permite crear prototipos sin código...
hace 6 meses
01.5K
NV Ingest:解析复杂格式文档,提取多模态数据为元数据和文本

NV Ingest: análisis sintáctico de documentos de formato complejo y extracción de datos multimodales en metadatos y texto

Introducción completa NV Ingest (NVIDIA Ingest) es un conjunto de microservicios de acceso temprano diseñados para analizar cientos de miles de PDF complejos y desordenados sin estructurar y otros documentos empresariales. Puede convertir estos documentos en metadatos y texto para incrustarlos en...
hace 7 meses
02.1K
Trellis:转换非结构文档为结构化EXCEL格式数据,PDF快速转表格(付费)

Trellis: convierte documentos no estructurados en datos estructurados en formato EXCEL, PDF rápido a formulario (de pago)

Introducción general Trellis es una plataforma de datos centrada en convertir fuentes de datos complejas no estructuradas en formatos SQL estructurados. A través de su potente motor de IA, Trellis es capaz de procesar una amplia gama de fuentes de datos, como documentos financieros, llamadas de voz y correos electrónicos, y convertirlos en datos que se pueden utilizar y...
hace 7 meses
01.4K
Ollama OCR:使用Ollama中视觉模型提取图像中的文本

Ollama OCR: Extracción de texto de imágenes mediante modelos visuales en Ollama

Introducción general Ollama OCR es un potente kit de herramientas de reconocimiento óptico de caracteres (OCR) que utiliza el modelo de lenguaje visual de última generación proporcionado por la plataforma Ollama para extraer texto de imágenes. El proyecto está disponible como paquete Python y proporciona una interfaz Strea...
hace 7 meses
02.9K
llms.txt Generator:快速抓取网站内容并,生成LLM训练文本数据集

Generador llms.txt: Capture rápidamente el contenido del sitio web y genere conjuntos de datos de texto de formación LLM.

Introducción general llmstxt-generator es una herramienta profesional de extracción e integración de contenido web dedicada a la preparación de conjuntos de datos de texto de alta calidad para el entrenamiento y la inferencia en Large Language Models (LLM). La herramienta fue desarrollada por Mendable AI utilizando @firec...
hace 7 meses
01.9K
Doc2X:文档图片公式识别与转换工具,支持多格式转换与高精度翻译

Doc2X: herramientas de reconocimiento y conversión de fórmulas de imágenes de documentos, compatibilidad con la conversión multiformato y traducción de alta precisión.

Introducción completa Doc2X es una potente herramienta de reconocimiento y conversión de fórmulas de imágenes de documentos, se compromete a proporcionar soluciones de procesamiento de documentos eficientes e inteligentes. Ya se trate de un trabajo de investigación académica, un libro de texto, un documento corporativo o un informe financiero, Doc2X puede identificar con precisión las tablas PDF y...
hace 6 meses
01.9K
ExtractThinker:提取和分类文档为结构化数据,优化文档处理流程

ExtractThinker: extracción y categorización de documentos en datos estructurados para optimizar el proceso de tratamiento de documentos.

Introducción exhaustiva ExtractThinker es una herramienta flexible de inteligencia de documentos que extrae y clasifica datos estructurados de documentos utilizando modelos de grandes lenguajes (LLM), proporcionando un flujo de trabajo de procesamiento de documentos sin fisuras similar a ORM. Es compatible con diversos cargadores de documentos, como Tess...
hace 7 meses
01.7K
HtmlRAG:构建高效HTML检索增强生成系统,优化RAG系统中的HTML文档检索与处理

HtmlRAG: Creación de un sistema eficaz de generación mejorada de documentos HTML, Optimización de la recuperación y el procesamiento de documentos HTML en sistemas RAG

Introducción general HtmlRAG es un innovador proyecto de código abierto centrado en mejorar el procesamiento de documentos HTML en sistemas de Generación Aumentada de Recuperación (RAG). El proyecto presenta un enfoque novedoso que defiende que el uso del formato HTML en los sistemas RAG es más eficiente que el texto sin formato. El proyecto contiene un ...
hace 7 meses
01.8K
ScrapeGraphAI:一个提示词搞定网页抓取,无需编写规则智能网页内容提取工具

ScrapeGraphAI: Una palabra rápida para el rastreo web, sin necesidad de escribir reglas herramienta inteligente de extracción de contenido web.

Introducción completa ScrapeGraphAI es una innovadora biblioteca de raspado web Python que combina inteligentemente Large Language Modelling (LLM) y Direct Graph Logic para crear tuberías de raspado para sitios web y documentos locales. Lo que hace única a esta herramienta es su perfecto nivel de simplicidad y potencia...
hace 7 meses
01.5K
Vision Parse: conversión inteligente de documentos PDF al formato Markdown mediante modelos de lenguaje visual

Vision Parse: conversión inteligente de documentos PDF al formato Markdown mediante modelos de lenguaje visual

Introducción completa Vision Parse es una revolucionaria herramienta de procesamiento de documentos, que combina inteligentemente la tecnología más avanzada de modelos de lenguaje visual (Vision Language Models), la capacidad de convertir inteligentemente documentos PDF a formato Markdown de alta calidad...
hace 8 meses
02K
Outlines:通过正则表达式、JSON或Pydantic模型生成结构化文本输出

Esquemas: genera salidas de texto estructurado mediante expresiones regulares, JSON o modelos Pydantic.

Introducción general Outlines es una biblioteca de código abierto desarrollada por dottxt-ai para mejorar la aplicación de Large Language Models (LLMs) a través de la generación de texto estructurado. La biblioteca admite diversas integraciones de modelos, como OpenAI, transformadores...
hace 6 meses
01.7K
MarkItDown:微软文档智能转换工具,转换各种文件为Markdown格式

MarkItDown: Herramienta de conversión inteligente de documentos de Microsoft para convertir varios archivos al formato Markdown

Introducción general MarkItDown es una herramienta Python desarrollada por Microsoft diseñada para convertir diversos archivos y documentos ofimáticos al formato Markdown. La herramienta admite una amplia gama de tipos de archivo, como PDF, PowerPoint, Word, Excel, diagramas...
hace 8 meses
02.4K
Chunkr:使用视觉模型进行文档摄取以及根据文本段落层级智能分块的一体化服务

Chunkr: un servicio todo en uno que utiliza modelos visuales para la ingestión de documentos y la agrupación inteligente basada en la jerarquía de párrafos de texto.

Introducción general Chunkr es una API autoalojada dedicada a convertir archivos PDF, PPTX, DOCX y Excel en datos aptos para su uso en RAG (Retrieval Augmented Generation) y LLM (Large Language Modelling). El proyecto fue desarrollado por Lumina...
hace 8 meses
02.7K
GitIngest:快速将Github代码仓库转为适合LLM理解的文本

GitIngest: Convierta rápidamente los repositorios de código de Github en texto apto para la comprensión del LLM

Introducción general GitIngest es una herramienta de código abierto diseñada para transformar los repositorios de código de GitHub en texto adecuado para las sugerencias de Large Language Model (LLM). Con una sencilla operación, los usuarios pueden extraer y formatear el contenido de cualquier repositorio de GitHub para adaptarlo al LLM...
hace 8 meses
02.7K
MegaParse:解析各类型文档为LLM可用数据,完整保留文档中的表格、图片等所有信息

MegaParse: analiza cada tipo de documento en datos disponibles en LLM, conservando toda la información del documento, como tablas e imágenes, en su totalidad.

Introducción general MegaParse es una potente y versátil herramienta de análisis sintáctico de documentos diseñada para optimizar el procesamiento de datos para el Large Language Model (LLM). Tanto si trabaja con texto, PDF, presentaciones de PowerPoint o documentos de Word, MegaParse...
hace 8 meses
02.1K
pdf2htmlEX:PDF无损转换为HTML,保持文本格式,适用于学术论文和杂志排版

pdf2htmlEX: conversión sin pérdidas de PDF a HTML, manteniendo el formato del texto, adecuado para trabajos académicos y composición de revistas.

Introducción completa pdf2htmlEX es una herramienta de código abierto diseñada para convertir archivos PDF a formato HTML , mediante el análisis del contenido del archivo PDF y el uso de HTML + CSS para restaurar con precisión su efecto visual , el documento PDF se ...
hace 9 meses
01.7K
Maxun:开源无代码平台,自动抓取网页数据并转换为API或电子表格

Maxun: una plataforma sin código y de código abierto que rastrea automáticamente datos web y los convierte en API u hojas de cálculo.

Introducción completa Maxun es una plataforma de extracción de datos web sin código de código abierto que permite a los usuarios entrenar robots en cuestión de minutos para rastrear automáticamente datos web y convertirlos en API u hojas de cálculo. La plataforma admite paginación y desplazamiento, se adapta a los cambios en el diseño del sitio web, proporciona un potente rastreo de datos...
hace 7 meses
01.9K
OmniParse:从文档/多媒体中提取任何非结构化数据解析为结构化数据

OmniParse: extrae cualquier dato no estructurado de documentos/multimedia y lo analiza para convertirlo en datos estructurados.

Introducción general OmniParse es una potente plataforma de análisis y optimización de datos diseñada para transformar cualquier dato no estructurado en datos estructurados y procesables, optimizada para el marco GenAI (Generative Artificial Intelligence). Tanto si trabaja con documentos, tablas, imágenes, vídeos, archivos de audio o...
hace 9 meses
01.8K
Parsio:自动从 PDF、电子邮件和其他文档中提取关键结构化数据

Parsio: extracción automática de datos estructurados clave de PDF, correos electrónicos y otros documentos

Introducción general Parsio es una herramienta de extracción de datos de documentos y correos electrónicos basada en IA que extrae automáticamente datos estructurados de PDF, correos electrónicos y otros documentos. La plataforma ofrece un potente analizador de PDF y funciones de OCR y admite una amplia gama de tipos de documentos, incluidos...
hace 9 meses
01.9K
TextIn:通用文档转换,PDF转Markdown工具

TextIn: Conversión universal de documentos, herramienta PDF a Markdown

Introducción TextIn es una herramienta profesional de PDF a Markdown diseñada para ayudar a los usuarios a convertir documentos PDF a formato Markdown de forma eficiente. La herramienta es compatible con una variedad de formatos de archivo, fácil de operar, la velocidad de conversión rápida, para conservar el formato PDF original y el contenido....
hace 9 meses
01.8K
文本提取API(text-extract-api):视觉提取文本信息,匿名化的PDF提取工具

API de extracción de texto (text-extract-api): extracción visual de información textual, herramienta de extracción anónima de PDF

Introducción general La API de extracción de texto (text-extract-api) es una potente herramienta diseñada para extraer y analizar el contenido de diversos formatos de documento (por ejemplo, PDF, Word, PPTX, etc.). La API utiliza tecnología punta de reconocimiento óptico de caracteres (OCR) y Ol...
hace 7 meses
02K
MinerU:PDF文档提取转换为多模态Markdown格式,支持电子书OCR扫描

MinerU: extracción de documentos PDF y conversión a formato Markdown multimodal, compatibilidad con escaneado OCR de libros electrónicos

Introducción exhaustiva MinerU es una herramienta de extracción de datos de código abierto desarrollada por el equipo OpenDataLab del Laboratorio de Inteligencia Artificial de Shanghai, centrada en la extracción eficiente de contenido de documentos PDF, páginas web y libros electrónicos complejos. Es capaz de tomar PDF multimodales que contengan imágenes, fórmulas, tablas y otros elementos...
hace 10 meses
02.6K
Marker:快速将PDF转换为Markdown的开源工具

Marker: herramientas de código abierto para convertir rápidamente PDF a Markdown

Introducción general Marker es una herramienta de procesamiento de documentos basada en aprendizaje profundo diseñada para convertir archivos PDF a formato Markdown de forma rápida y precisa. Es compatible con una amplia gama de tipos de documentos y está especialmente optimizado para la conversión de libros y artículos científicos.Marker es capaz de eliminar los encabezados...
hace 5 meses
02.6K
Mathpix:PDF和图片文档结构化转换软件,支持多终端

Mathpix: software de conversión estructurada de documentos PDF y de imagen, compatible con multiterminal

Descripción general Mathpix es una potente herramienta de automatización de documentos basada en IA diseñada para investigadores, desarrolladores y empresas. Convierte de forma rápida y precisa archivos PDF e imágenes en texto que se puede buscar, exportar y leer a máquina.Mathpix ofrece una amplia gama de funciones...
hace 11 meses
02.5K
Unstructured:开源预处理非结构化文档,无结构数据处理的利器

No estructurados: preprocesamiento de documentos no estructurados de código abierto, herramientas de tratamiento de datos no estructurados

Introducción completa Unstructured-IO proporciona un conjunto de componentes de código abierto para el procesamiento y preprocesamiento de imágenes y documentos de texto como PDF, HTML, documentos de Word, etc. Su principal objetivo es simplificar y optimizar los flujos de trabajo de procesamiento de datos, especialmente para grandes modelos de lenguaje (LL...
hace 11 meses
02K