PaddleOCR-VL - Modelos visual-lingüísticos ultraligeros de código abierto de Baidu

Últimos recursos sobre IAActualizado hace 5 meses Círculo de intercambio de inteligencia artificial

44.9K 00

¿Qué es PaddleOCR-VL?

PaddleOCR-VL es el modelo visual-lingüístico ultraligero de código abierto de Baidu, optimizado para el análisis sintáctico de documentos. El modelo contiene solo 0,9 mil millones de parámetros y, gracias a la fusión de un codificador visual dinámico de alta resolución con un modelo lingüístico ERNIE ligero, reduce significativamente la carga computacional sin perder precisión. Compatible con 109 idiomas, puede identificar con precisión elementos complejos como texto, tablas, fórmulas, gráficos, etc., y restablecer la estructura del diseño de acuerdo con los hábitos de lectura humanos. En la prueba de referencia OmniDocBench v1.5, el modelo obtuvo el primer puesto mundial en rendimiento global con 92,6 puntos, alcanzando el nivel SOTA en índices básicos como la distancia de edición de texto (0,035), el reconocimiento de fórmulas (CDM 91,43) y el procesamiento de fórmulas (TEDS 93,52), y superando a los principales modelos multimodales como GPT-4o.

Características de PaddleOCR-VL

Ligereza extrema y alto rendimiento: sólo 0,9B de parámetros, se ejecuta en CPUs normales, soporta despliegue a nivel de plugin de navegador, e inferencia significativamente más rápida que modelos similares (14,21 TP3T más rápido que MinerU2.5, 253,011 TP3T más rápido que dots.ocr).
Análisis de precisión multielementoAdmite el reconocimiento detallado de elementos complejos como texto, tablas, fórmulas, gráficos, etc. En la evaluación autorizada, la distancia de edición de texto es de sólo 0,035, el CDM de reconocimiento de fórmulas alcanza 91,43 y el TEDS de tablas llega a 93,52, todos ellos a la altura del nivel óptimo del sector.
Adaptación multilingüe y de escenarios complejosLa empresa cubre 109 idiomas (incluidos sistemas de escritura especiales como el ruso y el árabe) y se maneja bien con la escritura a mano, los documentos históricos y el texto con tipografía vertical (por ejemplo, el chino vertical), adaptándose a las necesidades del tratamiento globalizado de documentos.
Análisis inteligente del trazado y restauración del orden de lecturaLa lógica de lectura se predice automáticamente mediante una arquitectura de dos etapas (detección de diseño PP-DocLayoutV2 + reconocimiento PaddleOCR-VL-0.9B), y el error de orden de lectura es de sólo 0,043, lo que restablece con precisión los hábitos de lectura humanos.
Código abierto y ventajas prácticasEl sistema RAG se puede combinar con el sistema RAG para convertirse en una infraestructura de procesamiento de conocimiento de IA.

Principales ventajas de PaddleOCR-VL

Razonamiento extremadamente ligero y eficienteEl modelo básico es sólo 0,9B ParámetrosMinerU2.5 puede ejecutarse en CPU normales, admite el despliegue a nivel de complemento de navegador y ocupa muy poca memoria. Velocidad de inferencia mejorada con respecto a MinerU2.5 en una sola GPU A100. 14.2%actualizado desde dots.ocr 253.01%lo que reduce significativamente la carga computacional.
Reconocimiento preciso de elementos multilingües y complejos: Apoyo 109 lenguasAbarca el chino, el inglés, el árabe, el ruso y otros sistemas especiales de escritura, y puede tratar con precisión elementos complejos como texto, tablas, fórmulas, gráficos, escritura a mano y documentos históricos.
La arquitectura de dos etapas es estable y fiable: Adopción PP-DocLayoutV2 Inspección del diseño + PaddleOCR-VL-0.9B Reconocimiento de contenidos El marco sinérgico evita eficazmente los problemas habituales de ilusión y desalineación de los modelos de extremo a extremo, y funciona de forma más estable en disposiciones complejas.
Fusión multimodal profunda y comprensión realista: a través de Codificador visual de resolución dinámica NaViT junto con ERNIE-4.5-0.3B Modelos lingüísticos Combinado, logra un avance integral desde el reconocimiento de caracteres hasta la comprensión semántica, y maneja de forma inteligente elementos especiales como la tipografía multicolumna, las fórmulas matemáticas y los códigos QR.
Desempeño destacado en revisiones autorizadasLas exhaustivas clasificaciones de rendimiento de OmniDocBench V1.5 y otras listas autorizadas son las primeras del mundo, superando a modelos multimodales gigantes como Gemini-2.5 Pro y GPT-4o, así como a modelos de dominio vertical como dots.ocr y MinerU.

¿Cuál es la página web oficial de PaddleOCR-VL?

Página web del proyecto:: https://ernie.baidu.com/blog/zh/posts/paddleocr-vl/
Biblioteca de modelos HuggingFace:: https://huggingface.co/PaddlePaddle/PaddleOCR-VL
Documento técnico arXiv:: https://arxiv.org/pdf/2510.14528
Demostración de la experiencia en línea:: https://huggingface.co/spaces/PaddlePaddle/PaddleOCR-VL_Online_Demo
Dirección oficial de la experiencia:: https://aistudio.baidu.com/application/detail/98365

¿A quién va dirigido PaddleOCR-VL?

Desarrolladores e ingenierosDesarrolladores de software que necesiten integrar funciones de reconocimiento óptico de caracteres, especialmente adecuadas para situaciones con recursos limitados (por ejemplo, complementos de navegadores o aplicaciones para móviles) y para la colaboración con comunidades de código abierto.
Equipo de TI y Digital EmpresarialEmpresas financieras, minoristas, manufactureras y de otros sectores que manejan grandes volúmenes de documentos para crear procesos automatizados (por ejemplo, revisión de contratos o gestión de inventarios).
Investigadores y educadores: Instituciones académicas, bibliotecas y profesionales de la industria de la educación para la digitalización de literatura, la transcripción de manuscritos o el análisis sintáctico de material didáctico.
Administración y servicios públicosArchivos: departamentos de archivos gubernamentales, organizaciones de servicios públicos y otras entidades que necesitan gestionar documentos confidenciales de forma eficaz y conforme a las normas.
PYME y nuevas empresas con presupuestos limitadosEquipos de proyecto que necesitan funciones de OCR de alto rendimiento pero no pueden permitirse el coste de grandes cálculos de modelos.

Últimos recursos sobre IA

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

Little Half WordPress AI Assistant: un plugin de WordPress AI Assistant para el diálogo, la generación de entradas y la traducción

Últimos recursos sobre IA # AI Escritura # AI Java Proyecto de código abierto

hace 1 año

054.3K

Writing Frog: un asistente de escritura de inteligencia artificial gratuito lanzado por Smart Spectrum para generar rápidamente contenidos originales de alta calidad.

Últimos recursos sobre IA # AI Escritura

hace 2 años

050.3K

Orbit: el complemento del navegador Mozilla que resume correos electrónicos, documentos, artículos y vídeos y obtiene respuestas a los mismos.

Últimos recursos sobre IA # Navegador Asistente AI

hace 12 meses

053.5K

Docs: herramientas de código abierto para la gestión colaborativa de notas y documentos

Últimos recursos sobre IA # AI Java Proyecto de código abierto # AI Notas

hace 1 año

054.4K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

PaddleOCR-VL - Modelos visual-lingüísticos ultraligeros de código abierto de Baidu

¿Qué es PaddleOCR-VL?

Características de PaddleOCR-VL

Principales ventajas de PaddleOCR-VL

¿Cuál es la página web oficial de PaddleOCR-VL?

¿A quién va dirigido PaddleOCR-VL?

UniPixel - Modelo multimodal a nivel de píxel de código abierto de la Politécnica de Hong Kong, Tencent, la Academia China de las Ciencias y otros.

LongCat-Audio-Codec - Soluciones de códec de voz de código abierto Meituan LongCat

Artículos relacionados

Little Half WordPress AI Assistant: un plugin de WordPress AI Assistant para el diálogo, la generación de entradas y la traducción

Writing Frog: un asistente de escritura de inteligencia artificial gratuito lanzado por Smart Spectrum para generar rápidamente contenidos originales de alta calidad.

Orbit: el complemento del navegador Mozilla que resume correos electrónicos, documentos, artículos y vídeos y obtiene respuestas a los mismos.

Docs: herramientas de código abierto para la gestión colaborativa de notas y documentos

Sin comentarios

Últimas colecciones

Últimos artículos

PaddleOCR-VL - Modelos visual-lingüísticos ultraligeros de código abierto de Baidu

¿Qué es PaddleOCR-VL?

Características de PaddleOCR-VL

Principales ventajas de PaddleOCR-VL

¿Cuál es la página web oficial de PaddleOCR-VL?

¿A quién va dirigido PaddleOCR-VL?

UniPixel - Modelo multimodal a nivel de píxel de código abierto de la Politécnica de Hong Kong, Tencent, la Academia China de las Ciencias y otros.

LongCat-Audio-Codec - Soluciones de códec de voz de código abierto Meituan LongCat

Artículos relacionados

Little Half WordPress AI Assistant: un plugin de WordPress AI Assistant para el diálogo, la generación de entradas y la traducción

Writing Frog: un asistente de escritura de inteligencia artificial gratuito lanzado por Smart Spectrum para generar rápidamente contenidos originales de alta calidad.

Orbit: el complemento del navegador Mozilla que resume correos electrónicos, documentos, artículos y vídeos y obtiene respuestas a los mismos.

Docs: herramientas de código abierto para la gestión colaborativa de notas y documentos

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos