Углубленная инвентаризация проектов с открытым исходным кодом OCR: 10 лучших, которые не стоит пропускать в 2025 году

Новости ИИОпубликовано 5 месяцев назад Круг обмена ИИ
8.3K 00

Технология OCR способна преобразовывать текстовую информацию на изображении в редактируемые и обрабатываемые текстовые данные. Проще говоря, она распознает и извлекает текст из изображений.

Далее мы рассмотрим 10 проектов OCR с открытым исходным кодом с наибольшим количеством звезд на GitHub, чтобы предоставить вам подробное руководство по выбору инструмента OCR.

01 GOT-OCR 2.0: сквозная мультимодальная модель OCR

GOT-OCR 2.0 Это сквозная мультимодальная модель OCR с открытым исходным кодом и размером модели всего 1,43 ГБ. Она не только распознает и извлекает текст, но и обрабатываетМатематические формулы, молекулярные формулы, диаграммы, ноты, геометрические фигурыи многие другие, что значительно расширяет сферу применения технологии OCR.

Особенности модели:

  • Мультимодальная поддержка: Помимо обычного текста, он может работать с широким спектром сложного содержимого.
  • Легкие модели: Размер модели составляет всего 1,43 ГБ, что упрощает ее развертывание.
  • Сквозная идентификация: Нет необходимости в сложных процедурах предварительной и последующей обработки.

Преимущество: GOT-OCR 2.0 обладает очевидными преимуществами при работе со сложными сценариями и разнообразным содержимым и подходит для сценариев, в которых необходимо обрабатывать несколько типов документов.

В настоящее время на GitHub у него 7,2 тыс. звезд!

OCR 开源项目深度盘点:2025 年不容错过的 Top 10
开源地址:https://github.com/Ucas-HaoranWei/GOT-OCR2.0

02 InternVL: мощная мультимодальная модель с открытым исходным кодом

InternVL это мультимодальная макромодель с открытым исходным кодом, разработанная командой OpenGVLab, цель которой - обеспечить близкое приближение к GPT-4V и Близнецы Альтернатива производительности коммерческих моделей, таких как Pro.

Хотя InternVL относится к визуальным большим моделям, сцена применения более обширна, например, понимание изображений, а не вертикальная модель поля OCR, но она может быть обратно совместима с извлечением текста OCR из сцены. Существует множество отличных визуальных моделей с открытым исходным кодом, в этой статье мы не будем перечислять их все, а лишь приведем InternVL в качестве примера.

Особенности модели:

  • Мультимодальные возможности: Поддерживает широкий спектр задач, таких как понимание изображений и визуальный опрос.
  • Высокая производительность: Приближение к производительности коммерческих моделей.
  • Открытый исходный код: Удобство для разработчиков при вторичной разработке и настройке.

Преимущество: InternVL, как визуальная макромодель, имеет преимущества в обработке сложных изображений и понимании их содержания, а также отвечает основным требованиям OCR.

На данный момент она получила 7,2 тыс. звезд.

OCR 开源项目深度盘点:2025 年不容错过的 Top 10
开源地址:https://github.com/OpenGVLab/InternVL

03 olmOCR: эксперт по структурированию PDF-документов

olmOCR разработан компанией AllenAI и ориентирован на Линеаризация PDF-документовИнструментарий для преобразования сложных PDF-файлов в структурированный текст, пригодный для обучения моделированию на большом языке (LLM).

Его основная задача - генерировать связные текстовые данные, эффективно справляясь с такими проблемами PDF, как смешанный текст и графика, многоколоночная верстка и т. д., и улучшить способность LLM понимать документы в реальных сценариях.

Технические детали:

  • Анализ макета: Точное распознавание многоколоночных макетов текста, изображений, таблиц и т.д. в PDF.
  • Линеаризация текста: Преобразование сложных макетов в линейные текстовые последовательности, пригодные для обработки LLM.
  • Реорганизация контента: Решайте задачи, такие как межстраничные, межколоночные и т. д., чтобы обеспечить связность текста.

Сценарии применения:

  • Анализ научных работ: Быстрое извлечение ключевой информации из бумаги.
  • Обработка юридических документов: Структурированное извлечение содержимого документов, таких как договоры, судебные решения и т.д.
  • Анализ финансовых отчетов: Автоматизированное извлечение финансовых данных и ключевых показателей.

Необходимая конфигурация - современный графический процессор NVIDIA (проверено на RTX 4090, L40S, A100, H100) с не менее чем 20 ГБ оперативной памяти GPU и 30 ГБ свободного места на диске.

На данный момент она получила 9,8 тыс. звезд!

OCR 开源项目深度盘点:2025 年不容错过的 Top 10   OCR 开源项目深度盘点:2025 年不容错过的 Top 10
开源地址:https://github.com/allenai/olmocr
在线演示:https://olmocr.allenai.org/

04 Zerox: инструмент для преобразования структурированных документов на основе искусственного интеллекта

Zerox Это инструмент для извлечения документов на основе искусственного интеллекта, разработанный командой Omni-AI, который преобразует документы в формате PDF, изображения, Docx и т. д. в структурированные файлы Markdown.

Преимущество:

  • Обучение не требуется: В отличие от традиционных инструментов OCR, Zerox может работать со сложными макетами без необходимости предварительного обучения модели.
  • Прямая генерация структурированного контента: Реализуйте OCR на основе визуальной модели (например, GPT-4o-mini) и создавайте структурированный контент напрямую.
  • Сохраните логическую структуру: Распознавайте колонки в научных статьях, блоки кода в технической документации, формы договоров, формулы в контрольных работах и т. д. и создавайте аккуратные Markdown.
  • Сравнение с традиционным OCR Zerox опускает традиционные этапы анализа макета, сокращения структуры таблиц и т.д. и выводит результаты в формате Markdown напрямую.

В настоящее время получает 10.3K Star!

OCR 开源项目深度盘点:2025 年不容错过的 Top 10
开源地址:https://github.com/getomni-ai/zerox
体验地址:https://getomni.ai/ocr-demo

05 Surya: распознавание многоязычных текстов и сложных структур документов

Сурья Занимается распознаванием многоязычных текстов и сложных структур документов, уделяя особое внимание распознаванию таблиц.

Ключевые слова: распознавание текста на уровне строк, анализ макета (обнаружение таблиц, изображений, подписей и т. д.), определение порядка чтения, распознавание таблиц (определение строк/колонок), LaTeX OCR

Ключевые особенности:

  1. Многоязычная поддержка: Поддержка более 90 языков, включая сложные шрифты, такие как китайский, японский и арабский, а также основные языки, такие как английский и испанский, для обработки документов в глобализованных сценариях.
  2. Оптимизация распознавания форм: Может точно определять строки, столбцы и структуру ячеек таблицы, включая вращающиеся или сложные макеты таблицы, производительность лучше, чем у текущих основных моделей с открытым исходным кодом (например, Table Transformer).
  3. Сложный разбор документов: Он может определять заголовок, изображения, абзацы и другие элементы в документе и разумно оценивать порядок чтения, чтобы избежать путаницы в содержимом.

Пример сценария применения:

  • Оцифровка многоязычных документов: Многоязычные контракты, отчеты и т. д. работают с многонациональными компаниями.
  • Оцифровка исторических архивов: Работа с историческими документами, содержащими сложные таблицы и макеты.
  • Извлечение научных данных: Извлечение табличных данных из научных статей.

Surya поддерживает работу на CPU/GPU и значительно повышает скорость распознавания благодаря пакетной обработке и оптимизации предварительной обработки изображений (например, денуазирование, масштабирование серого) для нужд оцифровки документов на уровне предприятия.

В настоящее время на GitHub у него 16,8 тыс. звезд!

OCR 开源项目深度盘点:2025 年不容错过的 Top 10   OCR 开源项目深度盘点:2025 年不容错过的 Top 10
开源地址:https://github.com/VikParuchuri/surya

06 OCRmyPDF: добавление текстового слоя с возможностью поиска в отсканированные PDF-файлы

Этот инструмент с открытым исходным кодом предназначен для сканирования PDF-документов (т.е. PDF - это все изображения, изображения в тексте не могут быть скопированы) для добавления текстового слоя с возможностью поиска и копирования.

Сценарии применения:

  • Оцифровка архивов: Преобразование отсканированных бумажных документов в PDF с возможностью поиска.
  • Доступность: Доступные PDF-документы для людей с ослабленным зрением.
  • Информационный поиск: Легко находить информацию из большого количества отсканированных документов.

Преимущество:

  • Точная идентификация: Поддержка более 100 языков с помощью движка Tesseract OCR.
  • Оптимизация изображений: Автоматически исправляет перекошенные и повернутые не туда страницы, чтобы повысить скорость распознавания.
  • Пакетная обработка: Эффективная обработка тысяч страниц документов с ускорением многоядерного процессора.

OCRmyPDF имеет явное преимущество в обработке отсканированных PDF-файлов, прост в установке и использовании, совместим с Linux, Windows, macOS и Docker, что делает его более удобным решением по сравнению с другими инструментами, требующими ручной обработки отсканированных документов.

В настоящее время он получил 20,7 тыс. звезд на GitHub!

При открытии PDF-файлов с изображениями вы обнаружите, что текст на изображении не может быть скопирован и найден. OCRmyPDF может встроить текстовый слой OCR под изображение, поддерживая высокоточное копирование и поиск.

OCR 开源项目深度盘点:2025 年不容错过的 Top 10
开源地址:https://github.com/ocrmypdf/OCRmyPDF
接入文档:https://ocrmypdf.readthedocs.io/en/latest/

07 Маркер: преобразование PDF, изображений и других многоформатных документов

Маркер Это эффективный инструмент для преобразования документов, разработанный Виком Паручури, который позволяет быстро конвертировать PDF, изображения, документы Office и форматы EPUB в Markdown, JSON или HTML.

Преимущество: Маркер Он отлично справляется с разбором сложного контента (например, таблиц, математических формул, блоков кода) с высокой точностью и отличной скоростью обработки, поддерживает ускорение GPU и превосходит аналогичные облачные сервисы (например, Llamaparse, Mathpix).

Приложения:

  • Преобразование академических документов: Конвертируйте PDF-документы в Markdown для удобного редактирования и цитирования.
  • Создание технической документации: Преобразование документов, содержащих код и диаграммы, в удобный для публикации формат HTML.
  • Извлечение данных: Извлечение данных из таблиц и форм в формат JSON для упрощения последующей обработки.

Marker может использовать большие языковые модели (например, Gemini, Ollama) для оптимизации таких результатов, как объединение межстраничных таблиц, форматирование формул, извлечение данных из форм.

В настоящее время на GitHub у него 22,8 тыс. звезд.

OCR 开源项目深度盘点:2025 年不容错过的 Top 10
开源地址:https://github.com/vikParuchuri/marker

08 EasyOCR: библиотека многоязычных инструментов для распознавания текста

EasyOCR Это библиотека инструментов OCR с открытым исходным кодом, разработанная JaidedAI, которая вводит изображение и возвращает извлеченный текст, координаты соответствующего места и уровень доверия.

Особенности:

  • Многоязычная поддержка: Поддержка более 80 языков и различных систем письма (например, китайского, латинского, арабского).
  • Готовы к использованию: Предоставляет предварительно обученные модели для быстрого развертывания без дополнительного обучения.
  • Гибкий вход: Поддерживает множество форм ввода, таких как изображения, потоки байтов, URL-адреса и т. д.
  • Простота API: Вывод содержания, положения и достоверности текста через удобный API.
  • Совместимость с процессором и графическим процессором: Операционная среда может быть гибко выбрана в зависимости от аппаратных условий.

Модель обучения: EasyOCR основан на фреймворке глубокого обучения PyTorch и использует для обучения структуру модели CRNN (Convolutional Recurrent Neural Network) в сочетании с функцией потерь CTC (Connectionist Temporal Classification).

Сценарии применения:

  • Многоязычное распознавание документов: Идеально подходит для работы с документами, содержащими несколько языков.
  • Распознавание текста на естественной сцене: Он может использоваться для распознавания текста в естественных сценах, таких как дорожные знаки и номерные знаки.
  • Мобильный OCR: Модель легкая и подходит для развертывания на мобильных устройствах.

EasyOCR сочетает в себе удобство для разработчиков и требования к промышленным приложениям для таких сценариев OCR, как многоязычные документы и текст естественной сцены.

В настоящее время на GitHub у него 26 тысяч звезд.

OCR 开源项目深度盘点:2025 年不容错过的 Top 10   OCR 开源项目深度盘点:2025 年不容错过的 Top 10   OCR 开源项目深度盘点:2025 年不容错过的 Top 10
开源地址:https://github.com/JaidedAI/EasyOCR
Demo 地址:https://www.jaided.ai/documentai/demo

09 Umi-OCR: автономное программное обеспечение OCR, которое устанавливается и сразу же работает

Это бесплатная, с открытым исходным кодом, автономная программа для распознавания текста OCR, поддерживает системы Windows 7+ x64 и Linux x64, не требует подключения к сети, загружается и запускается локально.

Ключевые слова: локальное программное обеспечение, распаковка и запуск в автономном режиме; скриншот OCR; пакетный OCR;

Преимущество:

  • Работает в автономном режиме: Для защиты конфиденциальности пользователя не требуется подключение к Интернету.
  • Простота в использовании: Обеспечивает графический интерфейс для простого управления.
  • Богатый функционал: Поддержка распознавания скриншотов, пакетного распознавания и многих других функций.
  • Сравните это с другими офлайн-инструментами: Отличается простой установкой и не требует настройки операционной среды.

На данный момент он заработал 30,8 тыс. звезд.

OCR 开源项目深度盘点:2025 年不容错过的 Top 10   OCR 开源项目深度盘点:2025 年不容错过的 Top 10   OCR 开源项目深度盘点:2025 年不容错过的 Top 10
开源地址:https://github.com/hiroi-sora/Umi-OCR

10 Тессеракт: древние боги поля OCR

Тессеракт Это мощный и широко используемый OCR-движок с открытым исходным кодом, который преобразует текст на изображениях в редактируемый текст.

Исторический контекст:

  • Разработан компанией Hewlett-Packard Laboratories в период с 1985 по 1994 год.
  • После 1996 года она была перенесена на Windows.
  • HP сделала его открытым в 2005 году.
  • Спонсируемая компанией Google, она является одной из наиболее известных систем OCR с открытым исходным кодом.

Технические характеристики:

  • Методы глубокого обучения: Распознавание символов с помощью передовых методов глубокого обучения (например, конволюционных нейронных сетей) отличается высокой точностью, особенно при работе с отсканированными изображениями лучшего качества.
  • Многоязычная поддержка: Распознавание текста на более чем 100 языках.

Сравните его с другими двигателями: Tesseract имеет долгую историю, активное сообщество и хорошо документирован, но, возможно, не так хорош, как некоторые новые OCR-движки, при работе со сложными макетами и низкокачественными изображениями.

Существует также JavaScript-версия Tesseract OCR: Tesseract.js, но после реального тестирования выяснилось, что JS-версия не очень хорошо поддерживает китайский язык.

На данный момент он получил 65,3 тыс. звезд на GitHub.

OCR 开源项目深度盘点:2025 年不容错过的 Top 10
开源地址:https://github.com/tesseract-ocr/tesseract
开源地址:https://github.com/naptha/tesseract.js
OCR 开源项目深度盘点:2025 年不容错过的 Top 10
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...