Extracción y limpieza de documentos

Total 67 artículos

ordenar

OneFileLLM: Integración de múltiples fuentes de datos en un único archivo de texto

Introducción completa OneFileLLM es una herramienta de línea de comandos de código abierto diseñada para consolidar múltiples fuentes de datos en un único archivo de texto para facilitar la entrada en grandes modelos lingüísticos (LLM). Permite procesar repositorios de GitHub, artículos de ArXiv, transcripciones de vídeos de YouTube,...

hace 12 meses

054.8K

Chatlog: herramienta de código abierto para extraer y consultar los registros de chat de WeChat

Introducción General Chatlog es una herramienta de código abierto que se centra en la extracción y consulta de registros de chat de la base de datos local de WeChat. Es compatible con las versiones 3.x y 4.0 de WeChat, tanto para sistemas Windows como macOS. Los usuarios pueden utilizar la línea de comandos, la interfaz de terminal o H...

Últimos recursos sobre IA # AI Java Proyecto de código abierto Servicios MCP ## Extracción y limpieza de documentos

hace 12 meses

0127.8K

VOP: herramienta de OCR para extraer diagramas complejos y fórmulas matemáticas

Introducción completa Versatile OCR Program es una herramienta de reconocimiento óptico de caracteres (OCR) de código abierto diseñada para trabajar con documentos académicos y educativos complejos. Puede extraer texto, tablas, fórmulas matemáticas, diagramas y esquemas de PDF, imágenes y otros documentos y generar...

Últimos recursos sobre IA # AI Java Proyecto de código abierto # OCR # Extracción y limpieza de documentos

hace 12 meses

051.5K

DevDocs: un servicio MCP para rastrear y organizar rápidamente la documentación técnica

Introducción general DevDocs es una herramienta de código abierto completamente gratuita desarrollada por el equipo CyberAGI y alojada en GitHub. Diseñada para programadores y desarrolladores de software, parte de la URL de un documento técnico, rastrea automáticamente las páginas relevantes y las organiza en un conciso ma...

Últimos recursos sobre IA # AI Java Proyecto de código abierto Servicios MCP ## Extracción y limpieza de documentos

hace 12 meses

057K

Analice automáticamente el contenido del PDF y extraiga el texto y las tablas de los servicios de código abierto

Introducción Completa Analiza automáticamente el diseño de documentos PDF, identifica texto, títulos, imágenes, tablas, fórmulas y otros elementos de la página, y determina su orden correcto. La herramienta es compatible con la funcionalidad OCR y puede convertir PDF escaneados en texto con capacidad de búsqueda. Se ejecuta en Docker y proporciona dos modelos...

Últimos recursos sobre IA # AI Java Proyecto de código abierto # OCR # Extracción y limpieza de documentos

hace 12 meses

058.8K

Convierte gratis varios archivos a formato Markdown según Workers AI

Introducción general serverless-markdown-convertor es una herramienta gratuita y de código abierto, basada en Cloudflare Worker y Workers AI, que convierte una amplia gama de archivos a Markdow...

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 1 año

055.3K

GPT-Crawler: rastreo automático de contenidos web para generar documentos de bases de conocimiento

Introducción general GPT-Crawler es una herramienta de código abierto desarrollada por el equipo BuilderIO y alojada en GitHub. Rastrea el contenido de las páginas introduciendo una o varias URL de sitios web, generando archivos de conocimiento estructurado (output.jso...

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 10 meses

057.3K

pure.md: inserte "pure.md/" delante de la URL para extraer el texto limpio.

Introducción general pure.md es una herramienta para agentes de AI y desarrolladores que se centra en convertir rápidamente contenido web o archivos a formato Markdown. Se salta las restricciones anti-crawler a través de servicios proxy, extrae los datos centrales de una página web, y produce un ...

Últimos recursos sobre IA # AI Servicios abiertos # Extracción y limpieza de documentos

hace 1 año

062.7K

Cloudsquid: cargue documentos y describa los requisitos para la extracción inteligente de datos estructurados

Introducción general Cloudsquid es una empresa fundada en 2023 en Berlín, Alemania, centrada en simplificar el procesamiento de documentos con inteligencia artificial. Su producto principal es una plataforma de extracción de datos en línea que permite a los usuarios simplemente subir documentos como PDF, imágenes, audio, vídeo, etc. y simplemente indicar que necesitan extraer...

Últimos recursos sobre IA # Extracción y limpieza de documentos

hace 1 año

054.7K

PDF Craft: herramientas de código abierto para convertir documentos PDF escaneados a Markdown

Introducción general PDF Craft es una herramienta de código abierto diseñada para escanear PDF de libros y convertirlos al formato Markdown. Fue desarrollado por oomol-lab y está alojado en GitHub para los usuarios que les gusta organizar sus libros electrónicos. La herramienta funciona a través de este ...

Últimos recursos sobre IA # AI Java Proyecto de código abierto # OCR # Extracción y limpieza de documentos

hace 1 año

080.2K

Supametas.AI: Extracción de datos no estructurados en datos de alta disponibilidad LLM

Introducción Supametas.AI es una plataforma de procesamiento de datos que se especializa en la organización del desorden de páginas web, documentos, audio y vídeo en datos estructurados que la IA puede utilizar. Admite la recopilación de datos de múltiples fuentes, incluidos enlaces web, API, archivos locales, etc., y su posterior salida como JSON ...

Últimos recursos sobre IA # AI Servicios abiertos # Extracción y limpieza de documentos

hace 1 año

054.9K

MarkPDFDown: convertir PDF a Markdown basándose en un modelo multimodal

Introducción general MarkPDFDown es una herramienta de código abierto. Utiliza el Multimodal Big Language Model para convertir archivos PDF al formato Markdown. El desarrollador es el usuario de GitHub jorben. el objetivo de esta herramienta es simple: hacer que los documentos PDF ...

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 1 año

060.5K

SmolDocling: un modelo de lenguaje visual para el tratamiento eficaz de documentos de pequeño volumen

Introducción completa SmolDocling es un Modelo de Lenguaje Visual (VLM) desarrollado por el equipo ds4sd en colaboración con IBM, construido sobre SmolVLM-256M y alojado en la plataforma Hugging Face. Es de pequeño tamaño, sólo ...

Últimos recursos sobre IA # AI Java Proyecto de código abierto # OCR # Extracción y limpieza de documentos

hace 1 año

051.7K

Flying Paddle PP-TableMagic: extracción de información estructurada para tablas complejas

El objetivo del reconocimiento de tablas es analizar tablas en imágenes, identificar con precisión las estructuras de las tablas y la ubicación de las celdas, y reducirlas a formatos de tabla estructurados (por ejemplo, HTML). En la actual era de la información, una gran cantidad de datos tabulares importantes sigue existiendo en estado no estructurado (por ejemplo, documentos escaneados con imágenes de tablas estadísticas...).

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 1 año

066.6K

Mistral OCR: 94,89% Precisión global, 1.000 páginas/30 segundos, sólo 1 $.

En la larga historia de la civilización humana, cada salto en la forma de adquirir y analizar la información ha contribuido profundamente al progreso social. Desde los antiguos jeroglíficos hasta el papiro portátil, pasando por la posterior aparición de la imprenta y la actual ola digital, cada innovación tecnológica ha ampliado enormemente el paradigma de la difusión del conocimiento humano...

Últimos recursos sobre IA # AI Servicios abiertos # OCR # Extracción y limpieza de documentos

hace 1 año

060.1K

Firecrawl MCP Server：基于 Firecrawl 的网页爬虫 MCP 服务

Firecrawl MCP Server: Servicio MCP de rastreo web basado en Firecrawl

Introducción general Firecrawl MCP Server es una herramienta de código abierto desarrollada por MendableAI, basada en la implementación del protocolo Model Context Protocol (MCP), con Firecrawl A...

Últimos recursos sobre IA # AI Java Proyecto de código abierto Servicios MCP ## Extracción y limpieza de documentos

hace 1 año

072.2K

olmOCR: conversión de documentos PDF a texto, compatibilidad con tablas, fórmulas y reconocimiento de contenido manuscrito.

Introducción general olmOCR es una herramienta de código abierto desarrollada por el equipo AllenNLP del Allen Institute for Artificial Intelligence (AI2) que se centra en convertir archivos PDF...

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 1 año

068.1K

par_scrape: una herramienta de rastreo para la extracción inteligente de datos web

Introducción general par_scrape es una herramienta de rastreo web de código abierto basada en Python, lanzada en GitHub por el desarrollador Paul Robello, diseñada para ayudar a los usuarios a extraer datos de páginas web de forma inteligente. Integra Selenium...

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 1 año

054.2K

PDF-Extract-Kit: Extraiga la compleja estructura del contenido PDF de la herramienta de código abierto

Introducción completa PDF-Extract-Kit es un proyecto de código abierto desarrollado por el equipo OpenDataLab , centrándose en la extracción eficiente de contenido de alta calidad a partir de documentos PDF complejos y diversos . Integra tecnología avanzada de análisis sintáctico de documentos para la detección de diseños, el reconocimiento de fórmulas ...

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 1 año

0104K

Crawl4LLM: una herramienta eficaz de rastreo web para el preentrenamiento de LLM

Introducción exhaustiva Crawl4LLM es un proyecto de código abierto desarrollado conjuntamente por la Universidad de Tsinghua y la Universidad Carnegie Mellon, centrado en optimizar la eficiencia del rastreo web para el preentrenamiento de grandes modelos (LLM). Reduce significativamente el rastreo ineficaz mediante la selección inteligente de datos web de alta calidad, afirmando ser capaz de rastrear originalmente 1...

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 1 año

056.5K

Markdownify MCP Server：基于MCP协议将各种内容转换为Markdown格式

Servidor MCP de Markdownify: convierte diversos contenidos al formato Markdown basado en el protocolo MCP.

Introducción general Markdownify MCP Server es una herramienta de código abierto basada en el Model Context Protocol, alojada en GitHub por el desarrollador Zach Caceres ...

Últimos recursos sobre IA # AI Java Proyecto de código abierto Servicios MCP ## Extracción y limpieza de documentos

hace 1 año

065K

CodeWeaver: Genera automáticamente documentos Markdown a partir de la estructura y el contenido del código.

Introducción general CodeWeaver es una herramienta de línea de comandos diseñada para entretejer bibliotecas de código en documentos Markdown únicos y fáciles de navegar. Genera una representación estructurada de la jerarquía de archivos de un proyecto escaneando recursivamente los directorios e incrustando el contenido de cada archivo en bloques de código. Esta herramienta...

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 1 año

058.1K

Kreuzberg: herramienta de código abierto para extraer texto de cualquier documento

Introducción general Kreuzberg es una biblioteca para simplificar la extracción de texto de archivos PDF, diseñada para proporcionar una solución de extracción de texto sencilla y sin complicaciones. La biblioteca es especialmente adecuada para RAG (Retrieval-Augmented Generatio...

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 1 año

060.8K

Instructor: una biblioteca de Python que simplifica los flujos de trabajo de salida estructurados para grandes modelos lingüísticos.

Introducción general Instructor es una popular biblioteca de Python diseñada para procesar resultados estructurados de grandes modelos lingüísticos (LLM). Basada en Pydantic, proporciona una API sencilla, transparente y fácil de usar para gestionar datos...

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 1 año

054.4K

zChunk: una estrategia genérica de fragmentación semántica basada en Llama-70B

Introducción general zChunk es una novedosa estrategia de chunking desarrollada por ZeroEntropy que pretende ofrecer una solución para el chunking semántico genérico. La estrategia se basa en el modelo Llama-70B, que optimiza el proceso de chunking de los documentos solicitando la generación de trozos, lo que garantiza que la recuperación de información se mantenga en un alto...

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 1 año

049.8K

Pulse: Soluciones empresariales para el tratamiento de documentos y la extracción de datos

Introducción general Pulse es una plataforma inteligente centrada en el procesamiento de documentos y la extracción de datos, diseñada para ayudar a las empresas y a los desarrolladores a analizar y procesar eficazmente una amplia gama de documentos complejos. Gracias a su avanzada tecnología de visión por ordenador y procesamiento multimodal, Pulse es capaz de extraer con precisión datos de texto, imágenes, tablas y...

Últimos recursos sobre IA # Extracción y limpieza de documentos

hace 1 año

053K

Rowfill: extracción por lotes de información estructurada de documentos y análisis automatizado

Introducción general Rowfill es una plataforma de procesamiento de documentos de código abierto diseñada para trabajadores del conocimiento. Utiliza técnicas avanzadas de inteligencia artificial para extraer, analizar y procesar datos de documentos complejos, imágenes y PDFs.Rowfill soporta Native Large Language Model (LLM) y Ope...

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Análisis de datos de IA # Extracción y limpieza de documentos

hace 1 año

053.1K

PPTX2MD: Herramienta especial para convertir archivos PPTX a Markdown

Introducción general PPTX2MD es una herramienta de código abierto diseñada para convertir archivos PPTX de PowerPoint al formato Markdown. Desarrollada por el usuario de GitHub ssine, la herramienta permite conservar los encabezados, las listas, el formato del texto (por ejemplo, negrita, cursiva, colores y super...

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 1 año

076.7K

Repomix: empaquetado de la base de código en un archivo de texto para la recuperación de modelos de gran tamaño.

Introducción general Repomix (antes conocido como Repopack) es una herramienta de código abierto diseñada para empaquetar todo un código base en un único archivo compatible con IA. Esta herramienta permite a los desarrolladores poner fácilmente su código base a disposición de grandes modelos lingüísticos (como Claude, Chat...

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 1 año

088.5K

Yek: lectura de archivos de texto de repositorios git y fragmentación rápida de modelos de gran tamaño

Introducción general Yek es una herramienta rápida basada en Rust para leer archivos de texto de repositorios o directorios, trocearlos y serializarlos para su uso en grandes modelos lingüísticos (LLM). La herramienta utiliza la regla .gitignore por defecto para omitir archivos innecesarios, y utiliza...

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 1 año

057.3K

LlamaParse：Llamaindex推出的高品质解析文档，提取数据服务（每日免费提取1000页）

LlamaParse: servicio de alta calidad de análisis sintáctico de documentos y extracción de datos de Llamaindex (1000 páginas al día gratuitas).

Introducción completa LlamaParse es una potente herramienta de análisis sintáctico de documentos que puede procesar documentos complejos como PDF, PowerPoint, documentos de Word y hojas de cálculo y convertirlos en datos estructurados.LlamaParse ofrece...

Últimos recursos sobre IA # AI Servicios abiertos # Extracción y limpieza de documentos

hace 1 año

067.3K

UnDatas.IO: servicio API para el análisis preciso de diversos tipos de datos no estructurados (de pago)

Introducción completa UnDatas.IO es una plataforma centrada en el análisis sintáctico y el tratamiento de datos no estructurados. Utiliza tecnología avanzada para reconocer automáticamente el diseño de los documentos y clasificar tablas, imágenes, fórmulas y texto, simplificando enormemente el proceso de tratamiento de datos. La plataforma no sólo ahorra mucho tiempo en la clasificación de datos...

Últimos recursos sobre IA # AI Servicios abiertos # Extracción y limpieza de documentos

hace 1 año

052.1K

Zerox: PDF, DOCX, conversión de imágenes a Markdown, modelo visual OCR de alta precisión

Introducción general Zerox es un proyecto de código abierto diseñado para convertir PDF, DOCX, imágenes y otros documentos a formato Markdown a través de modelos visuales. El proyecto ha sido desarrollado por el equipo getomni-ai y proporciona una solución OCR (Reconocimiento Óptico de Caracteres) sencilla y eficiente.

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 1 año

075.9K

SemHash: implementación rápida de la deduplicación semántica de textos para mejorar la eficacia de la limpieza de datos

Introducción completa SemHash es una herramienta ligera y flexible para desduplicar conjuntos de datos por similitud semántica. Combina la rápida generación de incrustaciones de Model2Vec con la eficaz búsqueda de similitud RNA (vecino más cercano aproximado) de Vicinity.SemHa...

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 1 año

070.3K

Parseur: extracción automatizada de datos de documentos, extracción de texto estructurado a partir de varios documentos.

Descripción general Parseur es un software líder de extracción de datos de IA diseñado para ayudar a los usuarios a extraer automáticamente datos de texto de PDF, correos electrónicos y otros documentos. Con Parseur, los usuarios pueden convertir fácilmente datos no estructurados en datos estructurados y enviarlos a varias aplicaciones....

Últimos recursos sobre IA # Extracción y limpieza de documentos

hace 1 año

059.4K

Funciones AI: un servicio (API) para convertir contenidos de entrada en resultados estructurados.

Introducción completa Weco AI Functions es una potente plataforma diseñada para ayudar a los usuarios a crear y desplegar rápidamente funciones de IA. Mediante la simple descripción de tareas, los usuarios pueden generar patrones de salida estructurados con pruebas A/B y supervisión observacional. La plataforma permite crear prototipos sin código...

Últimos recursos sobre IA # AI Servicios abiertos # Extracción y limpieza de documentos

hace 1 año

051.2K

NV Ingest: análisis sintáctico de documentos de formato complejo y extracción de datos multimodales en metadatos y texto

Introducción completa NV Ingest (NVIDIA Ingest) es un conjunto de microservicios de acceso temprano diseñados para analizar cientos de miles de PDF complejos y desordenados sin estructurar y otros documentos empresariales. Puede convertir estos documentos en metadatos y texto para incrustarlos en...

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 1 año

063.4K

Trellis：转换非结构文档为结构化EXCEL格式数据，PDF快速转表格（付费）

Trellis: convierte documentos no estructurados en datos estructurados en formato EXCEL, PDF rápido a formulario (de pago)

Introducción general Trellis es una plataforma de datos centrada en convertir fuentes de datos complejas no estructuradas en formatos SQL estructurados. A través de su potente motor de IA, Trellis es capaz de procesar una amplia gama de fuentes de datos, como documentos financieros, llamadas de voz y correos electrónicos, y convertirlos en datos que se pueden utilizar y...

Últimos recursos sobre IA # Extracción y limpieza de documentos

hace 1 año

049.7K

Ollama OCR: Extracción de texto de imágenes mediante modelos visuales en Ollama

Introducción general Ollama OCR es un potente kit de herramientas de reconocimiento óptico de caracteres (OCR) que utiliza el modelo de lenguaje visual de última generación proporcionado por la plataforma Ollama para extraer texto de imágenes. El proyecto está disponible como paquete Python y proporciona una interfaz Strea...

Últimos recursos sobre IA # AI Java Proyecto de código abierto # OCR # Extracción y limpieza de documentos

hace 1 año

0103.9K

llms.txt Generator：快速抓取网站内容并，生成LLM训练文本数据集

Generador llms.txt: Capture rápidamente el contenido del sitio web y genere conjuntos de datos de texto de formación LLM.

Introducción general llmstxt-generator es una herramienta profesional de extracción e integración de contenido web dedicada a la preparación de conjuntos de datos de texto de alta calidad para el entrenamiento y la inferencia en Large Language Models (LLM). La herramienta fue desarrollada por Mendable AI utilizando @firec...

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 1 año

054.3K

Doc2X: herramientas de reconocimiento y conversión de fórmulas de imágenes de documentos, compatibilidad con la conversión multiformato y traducción de alta precisión.

Introducción completa Doc2X es una potente herramienta de reconocimiento y conversión de fórmulas de imágenes de documentos, se compromete a proporcionar soluciones de procesamiento de documentos eficientes e inteligentes. Ya se trate de un trabajo de investigación académica, un libro de texto, un documento corporativo o un informe financiero, Doc2X puede identificar con precisión las tablas PDF y...

Últimos recursos sobre IA # AI Servicios abiertos # AI Traducción # Extracción y limpieza de documentos

hace 1 año

087.4K

ExtractThinker: extracción y categorización de documentos en datos estructurados para optimizar el proceso de tratamiento de documentos.

Introducción exhaustiva ExtractThinker es una herramienta flexible de inteligencia de documentos que extrae y clasifica datos estructurados de documentos utilizando modelos de grandes lenguajes (LLM), proporcionando un flujo de trabajo de procesamiento de documentos sin fisuras similar a ORM. Es compatible con diversos cargadores de documentos, como Tess...

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 1 año

059.9K

HtmlRAG：构建高效HTML检索增强生成系统，优化RAG系统中的HTML文档检索与处理

HtmlRAG: Creación de un sistema eficaz de generación mejorada de documentos HTML, Optimización de la recuperación y el procesamiento de documentos HTML en sistemas RAG

Introducción general HtmlRAG es un innovador proyecto de código abierto centrado en mejorar el procesamiento de documentos HTML en sistemas de Generación Aumentada de Recuperación (RAG). El proyecto presenta un enfoque novedoso que defiende que el uso del formato HTML en los sistemas RAG es más eficiente que el texto sin formato. El proyecto contiene un ...

Últimos recursos sobre IA # Extracción y limpieza de documentos # Recuperación de conocimientos y marco RAG

hace 1 año

055.9K

ScrapeGraphAI：一个提示词搞定网页抓取，无需编写规则智能网页内容提取工具

ScrapeGraphAI: Una palabra rápida para el rastreo web, sin necesidad de escribir reglas herramienta inteligente de extracción de contenido web.

Introducción completa ScrapeGraphAI es una innovadora biblioteca de raspado web Python que combina inteligentemente Large Language Modelling (LLM) y Direct Graph Logic para crear tuberías de raspado para sitios web y documentos locales. Lo que hace única a esta herramienta es su perfecto nivel de simplicidad y potencia...

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 1 año

057.4K

Vision Parse: conversión inteligente de documentos PDF al formato Markdown mediante modelos de lenguaje visual

Introducción completa Vision Parse es una revolucionaria herramienta de procesamiento de documentos, que combina inteligentemente la tecnología más avanzada de modelos de lenguaje visual (Vision Language Models), la capacidad de convertir inteligentemente documentos PDF a formato Markdown de alta calidad...

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 1 año

055.9K

Outlines：通过正则表达式、JSON或Pydantic模型生成结构化文本输出

Esquemas: genera salidas de texto estructurado mediante expresiones regulares, JSON o modelos Pydantic.

Introducción general Outlines es una biblioteca de código abierto desarrollada por dottxt-ai para mejorar la aplicación de Large Language Models (LLMs) a través de la generación de texto estructurado. La biblioteca admite diversas integraciones de modelos, como OpenAI, transformadores...

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 1 año

083.3K

MarkItDown: Herramienta de conversión inteligente de documentos de Microsoft para convertir varios archivos al formato Markdown

Introducción general MarkItDown es una herramienta Python desarrollada por Microsoft diseñada para convertir diversos archivos y documentos ofimáticos al formato Markdown. La herramienta admite una amplia gama de tipos de archivo, como PDF, PowerPoint, Word, Excel, diagramas...

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 1 año

062.7K

Chunkr: un servicio todo en uno que utiliza modelos visuales para la ingestión de documentos y la agrupación inteligente basada en la jerarquía de párrafos de texto.

Introducción general Chunkr es una API autoalojada dedicada a convertir archivos PDF, PPTX, DOCX y Excel en datos aptos para su uso en RAG (Retrieval Augmented Generation) y LLM (Large Language Modelling). El proyecto fue desarrollado por Lumina...

Últimos recursos sobre IA # AI Java Proyecto de código abierto # OCR # Extracción y limpieza de documentos

hace 1 año

054.1K

GitIngest: Convierta rápidamente los repositorios de código de Github en texto apto para la comprensión del LLM

Introducción general GitIngest es una herramienta de código abierto diseñada para transformar los repositorios de código de GitHub en texto adecuado para las sugerencias de Large Language Model (LLM). Con una sencilla operación, los usuarios pueden extraer y formatear el contenido de cualquier repositorio de GitHub para adaptarlo al LLM...

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 1 año

080.2K

E2M: Convierte múltiples formatos de archivo a Markdown, consigue fácilmente un formato de documento uniforme.

Introducción general E2M (Everything to Markdown) es una biblioteca Python de código abierto diseñada para convertir una amplia gama de formatos de archivo al formato Markdown. La herramienta soporta formatos como doc, docx, epub, html, htm, u...

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 1 año

060.5K

Docling：支持多种格式文档解析并导出为Markdown和JSON，PDF支持OCR

Docling: soporte para una variedad de formatos de análisis sintáctico de documentos y exportación como Markdown y JSON, soporte PDF OCR

Introducción Docling es una potente herramienta de análisis y exportación de documentos compatible con una amplia gama de formatos, como PDF, DOCX, PPTX, XLSX, Image, HTML, AsciiDoc y Markdown, que puede analizar y exportar...

Últimos recursos sobre IA # AI Java Proyecto de código abierto # OCR # Extracción y limpieza de documentos

hace 1 año

0106.4K

MegaParse：解析各类型文档为LLM可用数据，完整保留文档中的表格、图片等所有信息

MegaParse: analiza cada tipo de documento en datos disponibles en LLM, conservando toda la información del documento, como tablas e imágenes, en su totalidad.

Introducción general MegaParse es una potente y versátil herramienta de análisis sintáctico de documentos diseñada para optimizar el procesamiento de datos para el Large Language Model (LLM). Tanto si trabaja con texto, PDF, presentaciones de PowerPoint o documentos de Word, MegaParse...

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 1 año

062.5K

ViTLP: extracción de datos estructurados de documentos PDF tipográficamente complejos y generación guiada visualmente de modelos preentrenados para el diseño de textos

Introducción general ViTLP (Visually Guided Generative Text-Layout Pre-training for Document Intelligence) es un proyecto de código abierto diseñado para pasar...

Últimos recursos sobre IA # OCR # Extracción y limpieza de documentos

hace 1 año

053.2K

Trieve: un servicio completo de infraestructura en la nube RAG que proporciona búsquedas, recomendaciones y análisis.

Introducción general Trieve es una infraestructura integral desarrollada por Devflow, Inc. diseñada para búsqueda, recomendaciones, RAG (Retrieval Augmented Generation) y análisis. La plataforma se sirve a través de una API y admite el autoalojamiento para AWS, GCP, K...

Últimos recursos sobre IA # AI Servicios abiertos # Extracción y limpieza de documentos

hace 1 año

060.5K

pdf2htmlEX：PDF无损转换为HTML，保持文本格式，适用于学术论文和杂志排版

pdf2htmlEX: conversión sin pérdidas de PDF a HTML, manteniendo el formato del texto, adecuado para trabajos académicos y composición de revistas.

Introducción completa pdf2htmlEX es una herramienta de código abierto diseñada para convertir archivos PDF a formato HTML , mediante el análisis del contenido del archivo PDF y el uso de HTML + CSS para restaurar con precisión su efecto visual , el documento PDF se ...

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 1 año

060.5K

Maxun: una plataforma sin código y de código abierto que rastrea automáticamente datos web y los convierte en API u hojas de cálculo.

Introducción completa Maxun es una plataforma de extracción de datos web sin código de código abierto que permite a los usuarios entrenar robots en cuestión de minutos para rastrear automáticamente datos web y convertirlos en API u hojas de cálculo. La plataforma admite paginación y desplazamiento, se adapta a los cambios en el diseño del sitio web, proporciona un potente rastreo de datos...

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 1 año

061.3K

OmniParse: extrae cualquier dato no estructurado de documentos/multimedia y lo analiza para convertirlo en datos estructurados.

Introducción general OmniParse es una potente plataforma de análisis y optimización de datos diseñada para transformar cualquier dato no estructurado en datos estructurados y procesables, optimizada para el marco GenAI (Generative Artificial Intelligence). Tanto si trabaja con documentos, tablas, imágenes, vídeos, archivos de audio o...

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 1 año

052.4K

Parsio: extracción automática de datos estructurados clave de PDF, correos electrónicos y otros documentos

Introducción general Parsio es una herramienta de extracción de datos de documentos y correos electrónicos basada en IA que extrae automáticamente datos estructurados de PDF, correos electrónicos y otros documentos. La plataforma ofrece un potente analizador de PDF y funciones de OCR y admite una amplia gama de tipos de documentos, incluidos...

Últimos recursos sobre IA # Extracción y limpieza de documentos

hace 1 año

057K

Chonkie: una biblioteca ligera de fragmentación de texto RAG

Introducción exhaustiva Chonkie es una biblioteca de fragmentación de texto RAG (Retrieval-Augmented Generation) ligera y eficiente diseñada para ayudar a los desarrolladores a fragmentar texto de forma rápida y sencilla. La librería soporta una gran variedad de métodos de fragmentación, incluyendo ...

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 1 año

072.4K

TextIn: Conversión universal de documentos, herramienta PDF a Markdown

Introducción TextIn es una herramienta profesional de PDF a Markdown diseñada para ayudar a los usuarios a convertir documentos PDF a formato Markdown de forma eficiente. La herramienta es compatible con una variedad de formatos de archivo, fácil de operar, la velocidad de conversión rápida, para conservar el formato PDF original y el contenido....

Últimos recursos sobre IA # Extracción y limpieza de documentos

hace 1 año

053.6K

文本提取API（text-extract-api）：视觉提取文本信息，匿名化的PDF提取工具

API de extracción de texto (text-extract-api): extracción visual de información textual, herramienta de extracción anónima de PDF

Introducción general La API de extracción de texto (text-extract-api) es una potente herramienta diseñada para extraer y analizar el contenido de diversos formatos de documento (por ejemplo, PDF, Word, PPTX, etc.). La API utiliza tecnología punta de reconocimiento óptico de caracteres (OCR) y Ol...

Últimos recursos sobre IA # AI Java Proyecto de código abierto # OCR # Extracción y limpieza de documentos

hace 1 año

056.3K

Datalab：专用OCR识别AI模型，PDF转Markdown（开源/API）

Datalab: modelo AI dedicado al reconocimiento OCR, PDF a Markdown (código abierto/API)

Introducción completa Datalab ofrece una gama de modelos avanzados de IA centrados en OCR, análisis de diseño, conversión de PDF a Markdown y mucho más. Estos modelos no sólo son de alto rendimiento, sino también fáciles de usar y de código abierto. Los modelos Marker de la plataforma pueden...

Últimos recursos sobre IA # AI Servicios abiertos # AI Java Proyecto de código abierto # OCR

hace 1 año

065.1K

MinerU：PDF文档提取转换为多模态Markdown格式，支持电子书OCR扫描

MinerU: extracción de documentos PDF y conversión a formato Markdown multimodal, compatibilidad con escaneado OCR de libros electrónicos

Introducción exhaustiva MinerU es una herramienta de extracción de datos de código abierto desarrollada por el equipo OpenDataLab del Laboratorio de Inteligencia Artificial de Shanghai, centrada en la extracción eficiente de contenido de documentos PDF, páginas web y libros electrónicos complejos. Es capaz de tomar PDF multimodales que contengan imágenes, fórmulas, tablas y otros elementos...

Últimos recursos sobre IA # AI Java Proyecto de código abierto # OCR # Extracción y limpieza de documentos

hace 2 años

0138K

Marker: herramientas de código abierto para convertir rápidamente PDF a Markdown

Introducción general Marker es una herramienta de procesamiento de documentos basada en aprendizaje profundo diseñada para convertir archivos PDF a formato Markdown de forma rápida y precisa. Es compatible con una amplia gama de tipos de documentos y está especialmente optimizado para la conversión de libros y artículos científicos.Marker es capaz de eliminar los encabezados...

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 1 año

0123.7K

Mathpix: software de conversión estructurada de documentos PDF y de imagen, compatible con multiterminal

Descripción general Mathpix es una potente herramienta de automatización de documentos basada en IA diseñada para investigadores, desarrolladores y empresas. Convierte de forma rápida y precisa archivos PDF e imágenes en texto que se puede buscar, exportar y leer a máquina.Mathpix ofrece una amplia gama de funciones...

Últimos recursos sobre IA # AI Servicios abiertos # Extracción y limpieza de documentos

hace 2 años

0106.9K

No estructurados: preprocesamiento de documentos no estructurados de código abierto, herramientas de tratamiento de datos no estructurados

Introducción completa Unstructured-IO proporciona un conjunto de componentes de código abierto para el procesamiento y preprocesamiento de imágenes y documentos de texto como PDF, HTML, documentos de Word, etc. Su principal objetivo es simplificar y optimizar los flujos de trabajo de procesamiento de datos, especialmente para grandes modelos de lenguaje (LL...

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 2 años

071.9K

Reader API: herramienta de extracción de contenidos web, conversión de HTML a Markdown

Introducción general El proyecto Reader de Jina AI es una herramienta de código abierto (Reader open source address) que toma cualquier URL añadiéndole el prefijo https://r.jina.ai/转换成适合大型语言模型 (Large Languag...

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 2 años

0336.2K

No es eso.