PaddleOCR-VL - ультралегкие визуально-лингвистические модели с открытым исходным кодом от Baidu

Последние ресурсы по искусственному интеллектуОбновлено 6 месяцев назад Круг обмена ИИ

46.9K 00

Что такое PaddleOCR-VL?

PaddleOCR-VL - это ультралегкая визуально-лингвистическая модель Baidu с открытым исходным кодом, оптимизированная для сценариев парсинга документов. Модель содержит всего 0,9 ББ параметров, объединяя динамический визуальный кодер высокого разрешения с легкой языковой моделью ERNIE, она значительно снижает вычислительные затраты, сохраняя при этом высокую точность. Поддерживая 109 языков, она может точно идентифицировать сложные элементы, такие как текст, таблицы, формулы, графики и т. д., и восстанавливать структуру макета в соответствии с привычками человека. В авторитетном бенчмарке OmniDocBench v1.5 модель заняла первое место в мире по комплексной производительности, набрав 92,6 балла, достигнув уровня SOTA по таким основным показателям, как расстояние редактирования текста (0,035), распознавание формул (CDM 91,43) и обработка формул (TEDS 93,52), и превзойдя основные мультимодальные модели, такие как GPT-4o.

Характеристики PaddleOCR-VL

Чрезвычайно легкий вес и высокая производительность: всего 0,9 ББ параметров, работает на обычных процессорах, поддерживает развертывание на уровне плагинов браузера и значительно быстрее делает выводы, чем аналогичные модели (на 14,21 TP3T быстрее, чем MinerU2.5, на 253,011 TP3T быстрее, чем dots.ocr).
Многоэлементный прецизионный анализОн поддерживает тонкое распознавание сложных элементов, таких как текст, таблицы, формулы, графики и т. д. По результатам авторитетной оценки, расстояние редактирования текста составляет всего 0,035, CDM распознавания формул достигает 91,43, а TEDS таблиц - 93,52, что соответствует оптимальному уровню в отрасли.
Адаптация многоязычных и сложных сценариевКомпания охватывает 109 языков (включая специальные системы письма, такие как русский и арабский) и хорошо справляется с рукописным текстом, историческими документами и вертикально набранным текстом (например, китайским вертикальным), адаптируясь к потребностям глобализованной обработки документов.
Интеллектуальный анализ макета и восстановление порядка чтенияЛогика чтения автоматически предсказывается с помощью двухступенчатой архитектуры (определение макета PP-DocLayoutV2 + распознавание PaddleOCR-VL-0.9B), а ошибка порядка чтения составляет всего 0,043, что точно восстанавливает привычку человека к чтению.
Открытый исходный код и практические преимущества: Полностью открытый исходный код и демо-версия, отличная производительность в распознавании счетов, разборе научных статей и других сценариях, может быть объединена с системой RAG, чтобы стать инфраструктурой обработки знаний AI.

Основные преимущества PaddleOCR-VL

Экстремально легкие и эффективные рассуждения: Основная модель - это только 0,9B ПараметрыMinerU2.5 может работать на обычных процессорах, поддерживает развертывание на уровне плагинов для браузеров и занимает очень мало памяти. Повышенная скорость вычислений по сравнению с MinerU2.5 на одном графическом процессоре A100. 14.2%, обновлено с dots.ocr 253.01%Вычислительные затраты значительно снижаются.
Точное распознавание многоязычных и сложных элементов: Поддержка 109 языковОн охватывает китайскую, английскую, арабскую, русскую и другие специальные системы письма и может точно обрабатывать такие сложные элементы, как текст, таблицы, формулы, диаграммы, почерк и исторические документы.
Двухступенчатая архитектура стабильна и надежна: Усыновление PP-DocLayoutV2 Проверка макета + PaddleOCR-VL-0.9B Распознавание содержимого Синергетический каркас позволяет эффективно избежать распространенных проблем с иллюзиями и несоответствиями, характерных для сквозных моделей, и более стабильно работать в сложных макетах.
Глубокое мультимодальное слияние и реалистичное понимание: через Визуальный кодировщик NaViT с динамическим разрешением вместе с Языковые модели ERNIE-4.5-0.3B В совокупности они обеспечивают комплексный прорыв от распознавания символов до семантического понимания, а также интеллектуально обрабатывают такие специальные элементы, как многоколоночная типографика, математические формулы и QR-коды.
Ведущая роль в авторитетных обзорахПо комплексному рейтингу производительности OmniDocBench V1.5 и другие авторитетные списки занимают первое место в мире, превосходя такие гигантские мультимодальные модели, как Gemini-2.5 Pro и GPT-4o, а также модели вертикального домена, такие как dots.ocr и MinerU.

Какой официальный сайт у PaddleOCR-VL?

Веб-сайт проекта:: https://ernie.baidu.com/blog/zh/posts/paddleocr-vl/
Библиотека моделей HuggingFace:: https://huggingface.co/PaddlePaddle/PaddleOCR-VL
Технический документ arXiv:: https://arxiv.org/pdf/2510.14528
Демонстрация опыта работы в режиме онлайн:: https://huggingface.co/spaces/PaddlePaddle/PaddleOCR-VL_Online_Demo
Официальный адрес опыта:: https://aistudio.baidu.com/application/detail/98365

Для кого предназначен PaddleOCR-VL?

Разработчики и инженеры: Разработчики программного обеспечения, которым необходимо интегрировать возможности OCR, особенно подходящие для сценариев с ограниченными ресурсами (например, плагины для браузеров, мобильные приложения) и сотрудничества с сообществом разработчиков открытого кода.
Команда корпоративных ИТ и цифровых технологий: Предприятия финансовой, розничной, производственной и других отраслей, работающие с большими объемами документов для построения автоматизированных процессов (например, проверка договоров, управление запасами).
Исследователи и преподаватели: Академическим учреждениям, библиотекам и практикам в сфере образования для оцифровки литературы, транскрипции рукописей или разбора учебных материалов.
Правительство и коммунальные службы: Государственные архивные отделы, организации государственной службы и другие организации, которым необходимо работать с конфиденциальными документами в соответствии с требованиями и эффективно.
Малые и средние предприятия и стартапы с ограниченным бюджетом: Проектные команды, которым нужны высокопроизводительные возможности OCR, но которые не могут позволить себе стоимость больших модельных вычислений.

Последние ресурсы по искусственному интеллекту

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

PhiData: создание искусственного интеллекта с помощью памяти, знаний и инструментов

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Применение интеллектуального кузова

1 год назад

060.3K

ExamFul.AI：智能备考助手，助力AP、IB和A-Level考试，历年真题/论文和AI智能辅导

ExamFul.AI: интеллектуальный помощник для подготовки к экзаменам AP, IB и A-Level, вопросы/сочинения прошлых экзаменов и интеллектуальное обучение с помощью искусственного интеллекта

Последние ресурсы по искусственному интеллекту Образовательные инструменты # AI

1 год назад

057.5K

Probly: табличный инструмент с открытым исходным кодом для ИИ, позволяющий анализировать данные и строить графики

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Анализ данных искусственного интеллекта

1 год назад

068.1K

TemPolor: поиск и генерация музыки без авторских прав на основе искусственного интеллекта, бесплатные голоса для видеоподкастов

Последние ресурсы по искусственному интеллекту # AI Music

1 год назад

048.4K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

PaddleOCR-VL - ультралегкие визуально-лингвистические модели с открытым исходным кодом от Baidu

Что такое PaddleOCR-VL?

Характеристики PaddleOCR-VL

Основные преимущества PaddleOCR-VL

Какой официальный сайт у PaddleOCR-VL?

Для кого предназначен PaddleOCR-VL?

UniPixel - мультимодальная модель на уровне пикселя с открытым исходным кодом от Гонконгского политехнического института, Tencent, CAS и др.

LongCat-Audio-Codec - голосовой кодек LongCat с открытым исходным кодом для Meituan

Похожие статьи

PhiData: создание искусственного интеллекта с помощью памяти, знаний и инструментов

Probly: табличный инструмент с открытым исходным кодом для ИИ, позволяющий анализировать данные и строить графики

TemPolor: поиск и генерация музыки без авторских прав на основе искусственного интеллекта, бесплатные голоса для видеоподкастов

Нет комментариев

Последние коллекции

Последние статьи

PaddleOCR-VL - ультралегкие визуально-лингвистические модели с открытым исходным кодом от Baidu

Что такое PaddleOCR-VL?

Характеристики PaddleOCR-VL

Основные преимущества PaddleOCR-VL

Какой официальный сайт у PaddleOCR-VL?

Для кого предназначен PaddleOCR-VL?

UniPixel - мультимодальная модель на уровне пикселя с открытым исходным кодом от Гонконгского политехнического института, Tencent, CAS и др.

LongCat-Audio-Codec - голосовой кодек LongCat с открытым исходным кодом для Meituan

Похожие статьи

PhiData: создание искусственного интеллекта с помощью памяти, знаний и инструментов

Probly: табличный инструмент с открытым исходным кодом для ИИ, позволяющий анализировать данные и строить графики

TemPolor: поиск и генерация музыки без авторских прав на основе искусственного интеллекта, бесплатные голоса для видеоподкастов

Нет комментариев

Избранные инструменты искусственного интеллекта

Последние коллекции

Последние статьи