Визуальное моделирование языка для эффективного извлечения текста из PDF - olmOCR

Новости ИИОпубликовано 10 месяцев назад Круг обмена ИИ

25.4K 00

Языковые модели (ЯМ) стали главной движущей силой инноваций в технологиях ИИ. Начиная с предварительного обучения и заканчивая реальными приложениями, языковые модели опираются в своей работе на обычные текстовые данные. Будь то выполнение триллионов жетоны Для обучения на уровне или для поддержки приложений ИИ с большим объемом данных качество текстовых данных имеет решающее значение. Низкое качество текстовых данных может привести не только к нестабильному процессу обучения и снижению производительности модели, но и к получению неоптимальных результатов по запросу пользователей.

Однако не все данные, необходимые для языкового моделирования, существуют в легко разбираемом формате, как, например, веб-страницы. На самом деле во многих областях ценная информация хранится в файлах электронных документов, в частности в формате PDF, который создает уникальные проблемы при обработке данных, поскольку изначально был разработан для представления содержимого на странице фиксированного размера, а не для сохранения логической структуры текста. Например, в формате PDF текст хранится в виде серии кодов символов и записывается информация о расположении и форматировании каждого символа на странице. Хотя такое хранение очень эффективно, оно крайне затрудняет извлечение из него таких единиц текста, как заголовки, абзацы, таблицы и формулы, и расположение их в правильном порядке чтения.

Для более удобной работы с электронными документами мы с гордостью представляем olmOCRolmOCR - это высокопроизводительный набор инструментов, предназначенный для преобразования PDF-файлов и изображений документов в понятный, структурированный обычный текст. olmOCR уникален по следующим параметрам:

превосходная производительность

Для того чтобы обеспечить olmOCR Для точного извлечения текста из широкого спектра документов команда разработчиков провела тонкую настройку модели на 250 000 PDF-страниц из различных источников. Эти PDF-документы были получены из самых разных источников, включая как собственные цифровые документы, так и отсканированные копии книг, находящихся в открытом доступе. Такой разнообразный набор данных гарантирует, что olmOCR сохраняет отличную производительность при работе с широким спектром документов.

Чрезвычайно экономичный

Стоимость набора инструментов olmOCR для обработки одного миллиона страниц PDF-документов составляет около 190 долларов, что примерно на 1/32 меньше стоимости пакетной обработки того же количества страниц с помощью GPT-4o API. Значительно снижается экономический барьер для обработки документов.

Вывод в формате Markdown

olmOCR выводит текст в формате Markdown, который легко разбирать и обрабатывать. Он может работать с формулами, таблицами и даже рукописным содержимым и гарантирует, что даже в самых сложных многоколоночных документах будет соблюден правильный порядок чтения.

Полностью функциональный, прямо из коробки

olmOCR - это полностью оптимизированный конвейер, который работает как с SGLang, так и с vLLM Механизм вывода работает в тандеме. Он масштабируется от одного GPU до сотен GPU и имеет встроенную эвристику для обработки распространенных сбоев парсинга и ошибок метаданных.

Полностью открытый исходный код

olmOCR построен на базе Qwen2-VL-7B-Instruct. Команда разработчиков выложила в открытый доступ все компоненты инструментария, включая веса моделей, наборы данных для тонкой настройки, а также код обучения и вывода.

Чтобы увидеть, как olmOCR сравнивается с другими ведущими инструментами извлечения документов, и узнать больше о процессе сборки olmOCR, перейдите по ссылкам. Если вы готовы попробовать olmOCR, посетите репозиторий GitHub и начните использовать olmOCR в своих проектах!

Сравнение интерактивных инструментов

Сравнивая образцы документов, вы можете наглядно увидеть, как olmOCR работает по сравнению с другими ведущими инструментами извлечения документов. Используя вкладки ниже, вы можете просмотреть результаты работы различных инструментов и получить представление о ключевых различиях в качестве обработки.

Путь к созданию olmOCR

Традиционные методы OCR часто сталкиваются со многими проблемами при работе с PDF-документами со сложной структурой. Чтобы получить высококачественные данные для обучения olmOCR, команда разработчиков разработала инновационный метод под названием закрепление документов Это метод извлечения текста из PDF-файлов. Метод полностью использует существующий текст и метаданные в PDF-файле, что значительно повышает качество извлечения текста.

На рисунке 1 показано, как техника привязки документов работает на типичной странице. Соответствующие места изображений и текстовые блоки извлекаются, связываются вместе и вставляются в подсказку модели. Привязанный текст используется вместе с растрированным изображением страницы при запросе текстовой версии документа от VLM (Visual Language Model).

С помощью методов привязки документов команда разработчиков использовала GPT-4o для разметки 250 000 страниц. Набор данных получен из широкого спектра источников, включая общедоступные PDF-документы, найденные в Интернете, и книги, находящиеся в открытом доступе, отсканированные из Интернет-архива. Набор данных имеет различные типы, включая 60% для научных статей, 12% для брошюр, 11% для юридических документов, 6% для диаграмм и графиков, 5% для слайдов и 4% для других типов документов.

Для обучения модели команда olmOCR доработала контрольную точку Qwen2-VL-7B-Instruct и использовала SGLang, чтобы добиться масштабной пакетной обработки и оптимизировать конвейер вывода. Для обеспечения масштабной пакетной обработки и оптимизации конвейера выводов они использовали SGLang. olmOCR смог преобразовать миллион страниц PDF всего за 190 долларов, что составляет 1/32 от стоимости API GPT-4o. Экспериментальные результаты показывают, что olmOCR не только значительно снижает стоимость по сравнению с другими популярными инструментами OCR, но и демонстрирует превосходную производительность при ручной оценке. Результаты экспериментов показывают, что olmOCR не только значительно снижает затраты по сравнению с другими популярными инструментами OCR, но и демонстрирует превосходную производительность при ручной оценке.

Рисунок 2: Боксплоты рейтинга ELO olmOCR по сравнению с другими популярными инструментами.

Чтобы полностью оценить производительность olmOCR, команда сравнила его результаты с другими популярными инструментами извлечения PDF, включая Marker, MinerU и GOT-OCR 2.0. 11 исследователей были приглашены для проведения парных оценок. В 2017 PDF-документах было собрано 452 набора значимых сравнений, а производительность была оценена с помощью подсчета баллов ELO. Результаты показывают, что olmOCR имеет оценку ELO более 1800, значительно превосходя всех конкурентов. При прямом сравнении с другими инструментами olmOCR набрал 61,3% по сравнению с другими инструментами. Маркер был предпочтительнее при сравнении 58.6% с GOT-OCR и при сравнении MinerU Этот показатель еще выше в сравнении 71.4%, что полностью демонстрирует отличную способность olmOCR генерировать четкий и хорошо структурированный текст.

Более подробную информацию и другие результаты оценки вы можете найти в Техническом отчете.

Как использовать olmOCR

Первая версия olmOCR включает демо-версию, весовые коэффициенты моделей, наборы данных для тонкой настройки, краткий технический отчет и, самое главное, эффективный конвейер вывода.

Посетите репозиторий GitHub, чтобы установить olmOCR и ознакомиться с документацией. Затем на машине с GPU просто выполните следующую команду:

python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/horribleocr.pdf

Команда разработчиков надеется в ближайшем будущем выпустить больше количественных бенчмарков, которые помогут разработать лучшие модели извлечения PDF и более эффективно оценить их производительность.