PaddleOCR-VL - ультралегкие визуально-лингвистические модели с открытым исходным кодом от Baidu

堆友AI

Что такое PaddleOCR-VL?

PaddleOCR-VL - это ультралегкая визуально-лингвистическая модель Baidu с открытым исходным кодом, оптимизированная для сценариев парсинга документов. Модель содержит всего 0,9 ББ параметров, объединяя динамический визуальный кодер высокого разрешения с легкой языковой моделью ERNIE, она значительно снижает вычислительные затраты, сохраняя при этом высокую точность. Поддерживая 109 языков, она может точно идентифицировать сложные элементы, такие как текст, таблицы, формулы, графики и т. д., и восстанавливать структуру макета в соответствии с привычками человека. В авторитетном бенчмарке OmniDocBench v1.5 модель заняла первое место в мире по комплексной производительности, набрав 92,6 балла, достигнув уровня SOTA по таким основным показателям, как расстояние редактирования текста (0,035), распознавание формул (CDM 91,43) и обработка формул (TEDS 93,52), и превзойдя основные мультимодальные модели, такие как GPT-4o.

PaddleOCR-VL - 百度开源的超轻量级视觉-语言模型

Характеристики PaddleOCR-VL

  • Чрезвычайно легкий вес и высокая производительность: всего 0,9 ББ параметров, работает на обычных процессорах, поддерживает развертывание на уровне плагинов браузера и значительно быстрее делает выводы, чем аналогичные модели (на 14,21 TP3T быстрее, чем MinerU2.5, на 253,011 TP3T быстрее, чем dots.ocr).
  • Многоэлементный прецизионный анализОн поддерживает тонкое распознавание сложных элементов, таких как текст, таблицы, формулы, графики и т. д. По результатам авторитетной оценки, расстояние редактирования текста составляет всего 0,035, CDM распознавания формул достигает 91,43, а TEDS таблиц - 93,52, что соответствует оптимальному уровню в отрасли.
  • Адаптация многоязычных и сложных сценариевКомпания охватывает 109 языков (включая специальные системы письма, такие как русский и арабский) и хорошо справляется с рукописным текстом, историческими документами и вертикально набранным текстом (например, китайским вертикальным), адаптируясь к потребностям глобализованной обработки документов.
  • Интеллектуальный анализ макета и восстановление порядка чтенияЛогика чтения автоматически предсказывается с помощью двухступенчатой архитектуры (определение макета PP-DocLayoutV2 + распознавание PaddleOCR-VL-0.9B), а ошибка порядка чтения составляет всего 0,043, что точно восстанавливает привычку человека к чтению.
  • Открытый исходный код и практические преимущества: Полностью открытый исходный код и демо-версия, отличная производительность в распознавании счетов, разборе научных статей и других сценариях, может быть объединена с системой RAG, чтобы стать инфраструктурой обработки знаний AI.

Основные преимущества PaddleOCR-VL

  • Экстремально легкие и эффективные рассуждения: Основная модель - это только 0,9B ПараметрыMinerU2.5 может работать на обычных процессорах, поддерживает развертывание на уровне плагинов для браузеров и занимает очень мало памяти. Повышенная скорость вычислений по сравнению с MinerU2.5 на одном графическом процессоре A100. 14.2%, обновлено с dots.ocr 253.01%Вычислительные затраты значительно снижаются.
  • Точное распознавание многоязычных и сложных элементов: Поддержка 109 языковОн охватывает китайскую, английскую, арабскую, русскую и другие специальные системы письма и может точно обрабатывать такие сложные элементы, как текст, таблицы, формулы, диаграммы, почерк и исторические документы.
  • Двухступенчатая архитектура стабильна и надежна: Усыновление PP-DocLayoutV2 Проверка макета + PaddleOCR-VL-0.9B Распознавание содержимого Синергетический каркас позволяет эффективно избежать распространенных проблем с иллюзиями и несоответствиями, характерных для сквозных моделей, и более стабильно работать в сложных макетах.
  • Глубокое мультимодальное слияние и реалистичное понимание: через Визуальный кодировщик NaViT с динамическим разрешением вместе с Языковые модели ERNIE-4.5-0.3B В совокупности они обеспечивают комплексный прорыв от распознавания символов до семантического понимания, а также интеллектуально обрабатывают такие специальные элементы, как многоколоночная типографика, математические формулы и QR-коды.
  • Ведущая роль в авторитетных обзорахПо комплексному рейтингу производительности OmniDocBench V1.5 и другие авторитетные списки занимают первое место в мире, превосходя такие гигантские мультимодальные модели, как Gemini-2.5 Pro и GPT-4o, а также модели вертикального домена, такие как dots.ocr и MinerU.

Какой официальный сайт у PaddleOCR-VL?

  • Веб-сайт проекта:: https://ernie.baidu.com/blog/zh/posts/paddleocr-vl/
  • Библиотека моделей HuggingFace:: https://huggingface.co/PaddlePaddle/PaddleOCR-VL
  • Технический документ arXiv:: https://arxiv.org/pdf/2510.14528
  • Демонстрация опыта работы в режиме онлайн:: https://huggingface.co/spaces/PaddlePaddle/PaddleOCR-VL_Online_Demo
  • Официальный адрес опыта:: https://aistudio.baidu.com/application/detail/98365

Для кого предназначен PaddleOCR-VL?

  • Разработчики и инженеры: Разработчики программного обеспечения, которым необходимо интегрировать возможности OCR, особенно подходящие для сценариев с ограниченными ресурсами (например, плагины для браузеров, мобильные приложения) и сотрудничества с сообществом разработчиков открытого кода.
  • Команда корпоративных ИТ и цифровых технологий: Предприятия финансовой, розничной, производственной и других отраслей, работающие с большими объемами документов для построения автоматизированных процессов (например, проверка договоров, управление запасами).
  • Исследователи и преподаватели: Академическим учреждениям, библиотекам и практикам в сфере образования для оцифровки литературы, транскрипции рукописей или разбора учебных материалов.
  • Правительство и коммунальные службы: Государственные архивные отделы, организации государственной службы и другие организации, которым необходимо работать с конфиденциальными документами в соответствии с требованиями и эффективно.
  • Малые и средние предприятия и стартапы с ограниченным бюджетом: Проектные команды, которым нужны высокопроизводительные возможности OCR, но которые не могут позволить себе стоимость больших модельных вычислений.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...