Inventario exhaustivo de proyectos de código abierto de OCR: los 10 que no deben perderse en 2025

Noticias AIPublicado hace 1 año Círculo de intercambio de inteligencia artificial

84.3K 00

La tecnología OCR es capaz de convertir la información textual de una imagen en datos de texto editables y procesables. En pocas palabras, reconoce y extrae texto de las imágenes.

A continuación, revisaremos los 10 proyectos de código abierto de OCR con mayor número de estrellas en GitHub para ofrecerle una guía completa a la hora de elegir una herramienta de OCR.

01 GOT-OCR 2.0: modelo de OCR multimodal de extremo a extremo

GOT-OCR 2.0 es un modelo OCR multimodal integral de código abierto con un tamaño de modelo de sólo 1,43 GB. No sólo reconoce y extrae texto, sino que también procesaFórmulas matemáticas, fórmulas moleculares, diagramas, partituras, formas geométricasy muchos otros, ampliando enormemente el ámbito de aplicación de la tecnología OCR.

Características del modelo:

Soporte multimodal: Además de texto normal, puede manejar una amplia gama de contenidos complejos.
Modelos ligeros: El tamaño del modelo es de sólo 1,43 GB, lo que facilita su despliegue.
Identificación de extremo a extremo: Sin necesidad de complejos procedimientos de pre y postprocesado.

Ventaja: GOT-OCR 2.0 tiene ventajas evidentes en el manejo de escenarios complejos y contenidos diversificados, y es adecuado para escenarios de aplicación que necesitan manejar múltiples tipos de documentos.

Actualmente tiene 7,2 mil estrellas en GitHub.

开源地址：https://github.com/Ucas-HaoranWei/GOT-OCR2.0

02 InternVL: un potente modelo multimodal de código abierto

InternVL es un macromodelo multimodal de código abierto desarrollado por el equipo OpenGVLab que pretende ofrecer una aproximación cercana a los modelos GPT-4V y Géminis Una alternativa a las prestaciones de modelos comerciales como Pro.

Aunque InternVL pertenece al modelo visual grande, la escena de la aplicación es más amplia, como la comprensión de la imagen, no el modelo vertical del campo de OCR, pero puede ser compatible hacia atrás con la extracción de OCR del texto de la escena. Hay muchos excelentes modelos visuales de código abierto, este artículo no enumera todos ellos, sólo a InternVL como un ejemplo.

Características del modelo:

Capacidades multimodales: Admite una amplia gama de tareas, como la comprensión de imágenes y el cuestionario visual.
Alto rendimiento: Aproximación al rendimiento de los modelos comerciales.
Fuente abierta: Conveniente para los desarrolladores para el desarrollo secundario y la personalización.

Ventaja: El InternVL, como macromodelo visual, tiene ventajas en el tratamiento de imágenes complejas y en la comprensión del contenido de las imágenes, y también satisface las necesidades básicas del OCR.

Hasta ahora ha recibido 7,2 mil estrellas.

开源地址：https://github.com/OpenGVLab/InternVL

03 olmOCR: El Experto en Estructurar Documentos PDF

olmOCR está desarrollado por AllenAI y se centra en Linealización de documentos PDFUn conjunto de herramientas que convierte los PDF de diseño complejo en texto estructurado apto para la formación en Large Language Modelling (LLM).

Su objetivo principal es generar datos de texto coherentes gestionando eficazmente los problemas de los PDF, como la mezcla de texto y gráficos, el diseño en varias columnas, etc., para mejorar la capacidad de LLM de comprender documentos en situaciones reales.

Detalles técnicos:

Análisis del trazado: Reconozca con precisión diseños de varias columnas de texto, imágenes, tablas, etc. en PDF.
Linealización de textos: Convierta diseños complejos en secuencias de texto lineales adecuadas para el procesamiento LLM.
Reorganización de contenidos: Resolver problemas como el cruce de páginas, de columnas, etc., para garantizar la coherencia del texto.

Escenarios de aplicación:

Análisis de trabajos académicos: Extraiga rápidamente la información clave de su documento.
Tramitación de documentos jurídicos: Extracción estructurada del contenido de documentos como contratos, sentencias, etc.
Análisis de estados financieros: Extracción automatizada de datos financieros y métricas clave.

La configuración requerida es una GPU NVIDIA actualizada (probada en RTX 4090, L40S, A100, H100) con al menos 20 GB de RAM de GPU y 30 GB de espacio disponible en disco.

Hasta ahora ha recibido 9,8K estrellas.

开源地址：https://github.com/allenai/olmocr
在线演示：https://olmocr.allenai.org/

04 Zerox: Herramienta de conversión de documentos estructurados basada en IA

Zerox Es una herramienta de extracción de documentos basada en IA desarrollada por el equipo de Omni-AI para convertir documentos en PDF, imagen, Docx y otros formatos en archivos Markdown estructurados.

Ventaja:

No requiere formación: A diferencia de las herramientas de OCR tradicionales, Zerox puede manejar diseños complejos sin tener que entrenar el modelo de antemano.
Generación directa de contenidos estructurados: Implemente el OCR basado en un modelo visual (por ejemplo, GPT-4o-mini) y genere directamente contenidos estructurados.
Conservar la estructura lógica: Reconoce la disposición en columnas de los trabajos académicos, los bloques de código de los documentos técnicos, los formularios de los contratos, las fórmulas de los exámenes, etc., y genera un Markdown ordenado.
Comparación con el OCR tradicional Zerox omite los pasos tradicionales de análisis de la maquetación, reducción de la estructura de las tablas, etc. y genera directamente resultados Markdown.

Actualmente tiene 10.3K estrellas.

开源地址：https://github.com/getomni-ai/zerox
体验地址：https://getomni.ai/ocr-demo

05 Surya: Reconocimiento multilingüe de textos y estructuras de documentos complejas

Surya Se centra en el reconocimiento de textos multilingües y estructuras documentales complejas, con especial experiencia en el reconocimiento de tablas.

Palabras clave: detección de texto a nivel de línea, análisis del diseño (detección de tablas, imágenes, pies de foto, etc.), detección del orden de lectura, reconocimiento de tablas (detección de filas/columnas), LaTeX OCR

Características principales:

Soporte multilingüe: Compatibilidad con más de 90 idiomas, incluidos alfabetos complejos como el chino, el japonés y el árabe, así como idiomas corrientes como el inglés y el español, lo que lo hace adecuado para el tratamiento de documentos en escenarios globalizados.
Optimización del reconocimiento de formas: Puede identificar con precisión las filas, las columnas y la estructura de celdas de la tabla, incluida la rotación o la disposición compleja de la tabla, con un rendimiento superior al de los principales modelos actuales de código abierto (como Table Transformer).
Análisis sintáctico de documentos complejos: Puede detectar el título, las imágenes, los párrafos y otros elementos del documento, y juzgar de forma inteligente el orden de lectura para evitar la confusión del contenido de salida.

Ejemplo de aplicación:

Digitalización de documentos multilingües: Las empresas multinacionales gestionan contratos multilingües, informes, etc.
Digitalización de archivos históricos: Maneje documentos históricos que contengan tablas y diseños complejos.
Extracción de datos científicos: Extracción de datos tabulares de artículos académicos.

Surya admite el funcionamiento con CPU/GPU y mejora significativamente la velocidad de reconocimiento mediante el procesamiento por lotes y las optimizaciones de preprocesamiento de imágenes (por ejemplo, eliminación de ruido, escala de grises) para las necesidades de digitalización de documentos a nivel empresarial.

Actualmente tiene 16,8K estrellas en GitHub.

开源地址：https://github.com/VikParuchuri/surya

06 OCRmyPDF: Añadir una capa de texto con función de búsqueda a los PDF escaneados

Esta herramienta de código abierto , diseñado para documentos PDF escaneados ( es decir, PDF es todas las imágenes , las imágenes en el texto no se puede copiar ) para agregar una capa de texto que se puede buscar , copiable .

Escenarios de aplicación:

Digitalización de archivos: Convierta documentos en papel escaneados en PDF con función de búsqueda.
Accesibilidad: Documentos PDF accesibles para personas con discapacidad visual.
Recuperación de información: Facilita la búsqueda de información en un gran número de documentos escaneados.

Ventaja:

Identificación precisa: Compatibilidad con más de 100 idiomas mediante el motor Tesseract OCR.
Optimización de imágenes: Corrige automáticamente las páginas torcidas y las páginas erróneas giradas para mejorar los índices de reconocimiento.
Procesamiento por lotes: Procese eficazmente miles de páginas de documentos con la aceleración multinúcleo de la CPU.

OCRmyPDF tiene una clara ventaja en el procesamiento de PDF escaneados, es fácil de instalar y utilizar, y es compatible con Linux, Windows, macOS y Docker, lo que proporciona una solución más cómoda que otras herramientas que requieren el procesamiento manual de los documentos escaneados.

Actualmente ha recibido 20,7K estrellas en GitHub.

OCRmyPDF puede incrustar la capa de texto OCR bajo la imagen, lo que permite realizar copias y búsquedas de alta precisión.

开源地址：https://github.com/ocrmypdf/OCRmyPDF
接入文档：https://ocrmypdf.readthedocs.io/en/latest/

07 Marker: conversión de PDF, imágenes y otros documentos multiformato

Marcador Es una eficaz herramienta de conversión de documentos desarrollada por Vik Paruchuri que puede convertir rápidamente PDF, imágenes, documentos de Office y formatos EPUB a Markdown, JSON o HTML.

Ventaja: Marcador Destaca en el análisis sintáctico de contenidos complejos (por ejemplo, tablas, fórmulas matemáticas, bloques de código) con gran precisión y excelente velocidad de procesamiento, admite la aceleración por GPU y supera a otros servicios en la nube comparables (por ejemplo, Llamaparse, Mathpix).

Aplicaciones:

Conversión de documentos académicos: Convierte documentos PDF a Markdown para editarlos y citarlos fácilmente.
Generación de documentación técnica: Convierta documentos que contengan código y diagramas en un formato HTML fácil de publicar.
Extracción de datos: Extraiga datos de tablas y formularios en formato JSON para facilitar su posterior procesamiento.

Marker puede recurrir a grandes modelos lingüísticos (por ejemplo, Gemini, Ollama) para optimizar resultados como la fusión de tablas entre páginas, el formateo de fórmulas o la extracción de datos de formularios.

Actualmente tiene 22,8K estrellas en GitHub.

开源地址：https://github.com/vikParuchuri/marker

08 EasyOCR: una biblioteca de herramientas de reconocimiento de texto multilingüe

EasyOCR Se trata de una biblioteca de herramientas OCR de código abierto desarrollada por JaidedAI, que introduce una imagen y devuelve el texto extraído, las coordenadas de la ubicación correspondiente y el nivel de confianza.

Características:

Soporte multilingüe: Compatibilidad con más de 80 idiomas y múltiples sistemas de escritura (por ejemplo, chino, latín, árabe).
Listo para usar: Proporciona modelos preentrenados para una rápida implantación sin formación adicional.
Entrada flexible: Admite múltiples formas de entrada, como imágenes, flujos de bytes, URL, etc.
API de simplicidad: Salida de contenido de texto, posición y confianza a través de una API concisa.
Compatible con CPU/GPU: El entorno operativo puede seleccionarse con flexibilidad en función de las condiciones del hardware.

Formación de modelos: EasyOCR se basa en el marco de aprendizaje profundo PyTorch y utiliza una estructura de modelo CRNN (red neuronal convolucional recurrente) combinada con una función de pérdida CTC (clasificación temporal conexionista) para el entrenamiento.

Escenarios de aplicación:

Reconocimiento multilingüe de documentos: Ideal para trabajar con documentos que contienen varios idiomas.
Reconocimiento de texto en escenas naturales: Puede utilizarse para reconocer texto en escenas naturales, como señales de tráfico y matrículas.
OCR móvil: El modelo es ligero y apto para su despliegue en móviles.

EasyOCR combina la facilidad de desarrollo con los requisitos de las aplicaciones industriales para escenarios de OCR como documentos multilingües y texto de escenas naturales.

Actualmente tiene 26K estrellas en GitHub.

开源地址：https://github.com/JaidedAI/EasyOCR
Demo 地址：https://www.jaided.ai/documentai/demo

09 Umi-OCR: software de OCR sin conexión que se instala y funciona inmediatamente

Se trata de un software de reconocimiento de texto OCR sin conexión, gratuito y de código abierto, compatible con los sistemas Windows 7+ x64 y Linux x64, sin necesidad de red, que se descarga y ejecuta localmente.

Palabras clave: software local descomprimir y ejecutar sin conexión; captura de pantalla OCR; OCR por lotes;

Ventaja:

Sin conexión: No se requiere conexión a Internet para proteger la privacidad del usuario.
Fácil de usar: Ofrece una interfaz gráfica que facilita el manejo.
Repleto de funciones: Soporta OCR de capturas de pantalla, OCR por lotes y muchas otras funciones.
Compáralo con otras herramientas offline: Su instalación es sencilla y no es necesario configurar el entorno operativo.

Hasta ahora ha ganado 30,8 mil estrellas.

开源地址：https://github.com/hiroi-sora/Umi-OCR

10 Tesseract: Antiguos dioses del campo OCR

Tesseract es un potente motor OCR de código abierto ampliamente utilizado que convierte el texto de las imágenes en texto editable.

Contexto histórico:

Desarrollado por los laboratorios Hewlett-Packard entre 1985 y 1994.
Fue portado a Windows después de 1996.
HP lo puso en abierto en 2005.
Patrocinado por Google, es uno de los sistemas de OCR de código abierto más conocidos.

Características técnicas:

Técnicas de aprendizaje profundo: El reconocimiento de caracteres mediante técnicas avanzadas de aprendizaje profundo (por ejemplo, redes neuronales convolucionales) es muy preciso y ofrece buenos resultados, especialmente cuando se trata de imágenes escaneadas de mejor calidad.
Soporte multilingüe: Reconocimiento de texto en más de 100 idiomas.

Compáralo con otros motores: Tesseract tiene una larga historia, una comunidad activa y está bien documentado, pero puede no ser tan bueno como algunos de los motores de OCR emergentes en el manejo de diseños complejos e imágenes de baja calidad.

También existe una versión JavaScript de Tesseract OCR: Tesseract.js, pero tras realizar pruebas reales, se descubrió que la versión JS no soporta muy bien el chino.

Hasta ahora ha recibido 65,3K estrellas en GitHub.

开源地址：https://github.com/tesseract-ocr/tesseract
开源地址：https://github.com/naptha/tesseract.js

Noticias AI

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

Ya está disponible la evaluación comparativa actualizada de Claude 3.5 Sonnet Chinese. La capacidad de codificación supera a GPT-4o, el razonamiento de orden superior no es tan bueno como o1

Noticias AI

hace 1 año

084.6K

Las notas más calientes del año sobre IA se han actualizado, y el conocimiento entra en el cerebro de forma mágica

Noticias AI

hace 1 año

036.7K

Guía de migración de Jina Embeddings v2 a v3

Noticias AI

hace 1 año

056.4K

¿Educación básica universal en IA en primaria y secundaria para 2030? ¿Cómo lo ve el sector educativo?

Noticias AI

hace 1 año

045.1K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

Inventario exhaustivo de proyectos de código abierto de OCR: los 10 que no deben perderse en 2025

01 GOT-OCR 2.0: modelo de OCR multimodal de extremo a extremo

02 InternVL: un potente modelo multimodal de código abierto

03 olmOCR: El Experto en Estructurar Documentos PDF

04 Zerox: Herramienta de conversión de documentos estructurados basada en IA

05 Surya: Reconocimiento multilingüe de textos y estructuras de documentos complejas

06 OCRmyPDF: Añadir una capa de texto con función de búsqueda a los PDF escaneados

07 Marker: conversión de PDF, imágenes y otros documentos multiformato

08 EasyOCR: una biblioteca de herramientas de reconocimiento de texto multilingüe

09 Umi-OCR: software de OCR sin conexión que se instala y funciona inmediatamente

10 Tesseract: Antiguos dioses del campo OCR

La tardía función "Lienzo" de Géminis, ¡experimenta lo que puede hacer!

Dify v1.1.0 Nuevo filtro inteligente "Metadatos" para la base de conocimientos

Artículos relacionados

Ya está disponible la evaluación comparativa actualizada de Claude 3.5 Sonnet Chinese. La capacidad de codificación supera a GPT-4o, el razonamiento de orden superior no es tan bueno como o1

Las notas más calientes del año sobre IA se han actualizado, y el conocimiento entra en el cerebro de forma mágica

Guía de migración de Jina Embeddings v2 a v3

¿Educación básica universal en IA en primaria y secundaria para 2030? ¿Cómo lo ve el sector educativo?

Sin comentarios

Últimas colecciones

Últimos artículos

Inventario exhaustivo de proyectos de código abierto de OCR: los 10 que no deben perderse en 2025

01 GOT-OCR 2.0: modelo de OCR multimodal de extremo a extremo

02 InternVL: un potente modelo multimodal de código abierto

03 olmOCR: El Experto en Estructurar Documentos PDF

04 Zerox: Herramienta de conversión de documentos estructurados basada en IA

05 Surya: Reconocimiento multilingüe de textos y estructuras de documentos complejas

06 OCRmyPDF: Añadir una capa de texto con función de búsqueda a los PDF escaneados

07 Marker: conversión de PDF, imágenes y otros documentos multiformato

08 EasyOCR: una biblioteca de herramientas de reconocimiento de texto multilingüe

09 Umi-OCR: software de OCR sin conexión que se instala y funciona inmediatamente

10 Tesseract: Antiguos dioses del campo OCR

La tardía función "Lienzo" de Géminis, ¡experimenta lo que puede hacer!

Dify v1.1.0 Nuevo filtro inteligente "Metadatos" para la base de conocimientos

Artículos relacionados

Ya está disponible la evaluación comparativa actualizada de Claude 3.5 Sonnet Chinese. La capacidad de codificación supera a GPT-4o, el razonamiento de orden superior no es tan bueno como o1

Las notas más calientes del año sobre IA se han actualizado, y el conocimiento entra en el cerebro de forma mágica

Guía de migración de Jina Embeddings v2 a v3

¿Educación básica universal en IA en primaria y secundaria para 2030? ¿Cómo lo ve el sector educativo?

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos