PaddleOCR-VL - Modelos visual-lingüísticos ultraligeros de código abierto de Baidu

堆友AI

¿Qué es PaddleOCR-VL?

PaddleOCR-VL es el modelo visual-lingüístico ultraligero de código abierto de Baidu, optimizado para el análisis sintáctico de documentos. El modelo contiene solo 0,9 mil millones de parámetros y, gracias a la fusión de un codificador visual dinámico de alta resolución con un modelo lingüístico ERNIE ligero, reduce significativamente la carga computacional sin perder precisión. Compatible con 109 idiomas, puede identificar con precisión elementos complejos como texto, tablas, fórmulas, gráficos, etc., y restablecer la estructura del diseño de acuerdo con los hábitos de lectura humanos. En la prueba de referencia OmniDocBench v1.5, el modelo obtuvo el primer puesto mundial en rendimiento global con 92,6 puntos, alcanzando el nivel SOTA en índices básicos como la distancia de edición de texto (0,035), el reconocimiento de fórmulas (CDM 91,43) y el procesamiento de fórmulas (TEDS 93,52), y superando a los principales modelos multimodales como GPT-4o.

PaddleOCR-VL - 百度开源的超轻量级视觉-语言模型

Características de PaddleOCR-VL

  • Ligereza extrema y alto rendimiento: sólo 0,9B de parámetros, se ejecuta en CPUs normales, soporta despliegue a nivel de plugin de navegador, e inferencia significativamente más rápida que modelos similares (14,21 TP3T más rápido que MinerU2.5, 253,011 TP3T más rápido que dots.ocr).
  • Análisis de precisión multielementoAdmite el reconocimiento detallado de elementos complejos como texto, tablas, fórmulas, gráficos, etc. En la evaluación autorizada, la distancia de edición de texto es de sólo 0,035, el CDM de reconocimiento de fórmulas alcanza 91,43 y el TEDS de tablas llega a 93,52, todos ellos a la altura del nivel óptimo del sector.
  • Adaptación multilingüe y de escenarios complejosLa empresa cubre 109 idiomas (incluidos sistemas de escritura especiales como el ruso y el árabe) y se maneja bien con la escritura a mano, los documentos históricos y el texto con tipografía vertical (por ejemplo, el chino vertical), adaptándose a las necesidades del tratamiento globalizado de documentos.
  • Análisis inteligente del trazado y restauración del orden de lecturaLa lógica de lectura se predice automáticamente mediante una arquitectura de dos etapas (detección de diseño PP-DocLayoutV2 + reconocimiento PaddleOCR-VL-0.9B), y el error de orden de lectura es de sólo 0,043, lo que restablece con precisión los hábitos de lectura humanos.
  • Código abierto y ventajas prácticasEl sistema RAG se puede combinar con el sistema RAG para convertirse en una infraestructura de procesamiento de conocimiento de IA.

Principales ventajas de PaddleOCR-VL

  • Razonamiento extremadamente ligero y eficienteEl modelo básico es sólo 0,9B ParámetrosMinerU2.5 puede ejecutarse en CPU normales, admite el despliegue a nivel de complemento de navegador y ocupa muy poca memoria. Velocidad de inferencia mejorada con respecto a MinerU2.5 en una sola GPU A100. 14.2%actualizado desde dots.ocr 253.01%lo que reduce significativamente la carga computacional.
  • Reconocimiento preciso de elementos multilingües y complejos: Apoyo 109 lenguasAbarca el chino, el inglés, el árabe, el ruso y otros sistemas especiales de escritura, y puede tratar con precisión elementos complejos como texto, tablas, fórmulas, gráficos, escritura a mano y documentos históricos.
  • La arquitectura de dos etapas es estable y fiable: Adopción PP-DocLayoutV2 Inspección del diseño + PaddleOCR-VL-0.9B Reconocimiento de contenidos El marco sinérgico evita eficazmente los problemas habituales de ilusión y desalineación de los modelos de extremo a extremo, y funciona de forma más estable en disposiciones complejas.
  • Fusión multimodal profunda y comprensión realista: a través de Codificador visual de resolución dinámica NaViT junto con ERNIE-4.5-0.3B Modelos lingüísticos Combinado, logra un avance integral desde el reconocimiento de caracteres hasta la comprensión semántica, y maneja de forma inteligente elementos especiales como la tipografía multicolumna, las fórmulas matemáticas y los códigos QR.
  • Desempeño destacado en revisiones autorizadasLas exhaustivas clasificaciones de rendimiento de OmniDocBench V1.5 y otras listas autorizadas son las primeras del mundo, superando a modelos multimodales gigantes como Gemini-2.5 Pro y GPT-4o, así como a modelos de dominio vertical como dots.ocr y MinerU.

¿Cuál es la página web oficial de PaddleOCR-VL?

  • Página web del proyecto:: https://ernie.baidu.com/blog/zh/posts/paddleocr-vl/
  • Biblioteca de modelos HuggingFace:: https://huggingface.co/PaddlePaddle/PaddleOCR-VL
  • Documento técnico arXiv:: https://arxiv.org/pdf/2510.14528
  • Demostración de la experiencia en línea:: https://huggingface.co/spaces/PaddlePaddle/PaddleOCR-VL_Online_Demo
  • Dirección oficial de la experiencia:: https://aistudio.baidu.com/application/detail/98365

¿A quién va dirigido PaddleOCR-VL?

  • Desarrolladores e ingenierosDesarrolladores de software que necesiten integrar funciones de reconocimiento óptico de caracteres, especialmente adecuadas para situaciones con recursos limitados (por ejemplo, complementos de navegadores o aplicaciones para móviles) y para la colaboración con comunidades de código abierto.
  • Equipo de TI y Digital EmpresarialEmpresas financieras, minoristas, manufactureras y de otros sectores que manejan grandes volúmenes de documentos para crear procesos automatizados (por ejemplo, revisión de contratos o gestión de inventarios).
  • Investigadores y educadores: Instituciones académicas, bibliotecas y profesionales de la industria de la educación para la digitalización de literatura, la transcripción de manuscritos o el análisis sintáctico de material didáctico.
  • Administración y servicios públicosArchivos: departamentos de archivos gubernamentales, organizaciones de servicios públicos y otras entidades que necesitan gestionar documentos confidenciales de forma eficaz y conforme a las normas.
  • PYME y nuevas empresas con presupuestos limitadosEquipos de proyecto que necesitan funciones de OCR de alto rendimiento pero no pueden permitirse el coste de grandes cálculos de modelos.
© declaración de copyright

Puestos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...