Углубленная инвентаризация проектов с открытым исходным кодом OCR: 10 лучших, которые не стоит пропускать в 2025 году
Технология OCR способна преобразовывать текстовую информацию на изображении в редактируемые и обрабатываемые текстовые данные. Проще говоря, она распознает и извлекает текст из изображений.
Далее мы рассмотрим 10 проектов OCR с открытым исходным кодом с наибольшим количеством звезд на GitHub, чтобы предоставить вам подробное руководство по выбору инструмента OCR.
01 GOT-OCR 2.0: сквозная мультимодальная модель OCR
GOT-OCR 2.0 Это сквозная мультимодальная модель OCR с открытым исходным кодом и размером модели всего 1,43 ГБ. Она не только распознает и извлекает текст, но и обрабатываетМатематические формулы, молекулярные формулы, диаграммы, ноты, геометрические фигурыи многие другие, что значительно расширяет сферу применения технологии OCR.
Особенности модели:
- Мультимодальная поддержка: Помимо обычного текста, он может работать с широким спектром сложного содержимого.
- Легкие модели: Размер модели составляет всего 1,43 ГБ, что упрощает ее развертывание.
- Сквозная идентификация: Нет необходимости в сложных процедурах предварительной и последующей обработки.
Преимущество: GOT-OCR 2.0 обладает очевидными преимуществами при работе со сложными сценариями и разнообразным содержимым и подходит для сценариев, в которых необходимо обрабатывать несколько типов документов.
В настоящее время на GitHub у него 7,2 тыс. звезд!

开源地址:https://github.com/Ucas-HaoranWei/GOT-OCR2.0
02 InternVL: мощная мультимодальная модель с открытым исходным кодом
InternVL это мультимодальная макромодель с открытым исходным кодом, разработанная командой OpenGVLab, цель которой - обеспечить близкое приближение к GPT-4V и Близнецы Альтернатива производительности коммерческих моделей, таких как Pro.
Хотя InternVL относится к визуальным большим моделям, сцена применения более обширна, например, понимание изображений, а не вертикальная модель поля OCR, но она может быть обратно совместима с извлечением текста OCR из сцены. Существует множество отличных визуальных моделей с открытым исходным кодом, в этой статье мы не будем перечислять их все, а лишь приведем InternVL в качестве примера.
Особенности модели:
- Мультимодальные возможности: Поддерживает широкий спектр задач, таких как понимание изображений и визуальный опрос.
- Высокая производительность: Приближение к производительности коммерческих моделей.
- Открытый исходный код: Удобство для разработчиков при вторичной разработке и настройке.
Преимущество: InternVL, как визуальная макромодель, имеет преимущества в обработке сложных изображений и понимании их содержания, а также отвечает основным требованиям OCR.
На данный момент она получила 7,2 тыс. звезд.

开源地址:https://github.com/OpenGVLab/InternVL
03 olmOCR: эксперт по структурированию PDF-документов
olmOCR разработан компанией AllenAI и ориентирован на Линеаризация PDF-документовИнструментарий для преобразования сложных PDF-файлов в структурированный текст, пригодный для обучения моделированию на большом языке (LLM).
Его основная задача - генерировать связные текстовые данные, эффективно справляясь с такими проблемами PDF, как смешанный текст и графика, многоколоночная верстка и т. д., и улучшить способность LLM понимать документы в реальных сценариях.
Технические детали:
- Анализ макета: Точное распознавание многоколоночных макетов текста, изображений, таблиц и т.д. в PDF.
- Линеаризация текста: Преобразование сложных макетов в линейные текстовые последовательности, пригодные для обработки LLM.
- Реорганизация контента: Решайте задачи, такие как межстраничные, межколоночные и т. д., чтобы обеспечить связность текста.
Сценарии применения:
- Анализ научных работ: Быстрое извлечение ключевой информации из бумаги.
- Обработка юридических документов: Структурированное извлечение содержимого документов, таких как договоры, судебные решения и т.д.
- Анализ финансовых отчетов: Автоматизированное извлечение финансовых данных и ключевых показателей.
Необходимая конфигурация - современный графический процессор NVIDIA (проверено на RTX 4090, L40S, A100, H100) с не менее чем 20 ГБ оперативной памяти GPU и 30 ГБ свободного места на диске.
На данный момент она получила 9,8 тыс. звезд!


开源地址:https://github.com/allenai/olmocr
在线演示:https://olmocr.allenai.org/
04 Zerox: инструмент для преобразования структурированных документов на основе искусственного интеллекта
Zerox Это инструмент для извлечения документов на основе искусственного интеллекта, разработанный командой Omni-AI, который преобразует документы в формате PDF, изображения, Docx и т. д. в структурированные файлы Markdown.
Преимущество:
- Обучение не требуется: В отличие от традиционных инструментов OCR, Zerox может работать со сложными макетами без необходимости предварительного обучения модели.
- Прямая генерация структурированного контента: Реализуйте OCR на основе визуальной модели (например, GPT-4o-mini) и создавайте структурированный контент напрямую.
- Сохраните логическую структуру: Распознавайте колонки в научных статьях, блоки кода в технической документации, формы договоров, формулы в контрольных работах и т. д. и создавайте аккуратные Markdown.
- Сравнение с традиционным OCR Zerox опускает традиционные этапы анализа макета, сокращения структуры таблиц и т.д. и выводит результаты в формате Markdown напрямую.
В настоящее время получает 10.3K Star!

开源地址:https://github.com/getomni-ai/zerox
体验地址:https://getomni.ai/ocr-demo
05 Surya: распознавание многоязычных текстов и сложных структур документов
Сурья Занимается распознаванием многоязычных текстов и сложных структур документов, уделяя особое внимание распознаванию таблиц.
Ключевые слова: распознавание текста на уровне строк, анализ макета (обнаружение таблиц, изображений, подписей и т. д.), определение порядка чтения, распознавание таблиц (определение строк/колонок), LaTeX OCR
Ключевые особенности:
- Многоязычная поддержка: Поддержка более 90 языков, включая сложные шрифты, такие как китайский, японский и арабский, а также основные языки, такие как английский и испанский, для обработки документов в глобализованных сценариях.
- Оптимизация распознавания форм: Может точно определять строки, столбцы и структуру ячеек таблицы, включая вращающиеся или сложные макеты таблицы, производительность лучше, чем у текущих основных моделей с открытым исходным кодом (например, Table Transformer).
- Сложный разбор документов: Он может определять заголовок, изображения, абзацы и другие элементы в документе и разумно оценивать порядок чтения, чтобы избежать путаницы в содержимом.
Пример сценария применения:
- Оцифровка многоязычных документов: Многоязычные контракты, отчеты и т. д. работают с многонациональными компаниями.
- Оцифровка исторических архивов: Работа с историческими документами, содержащими сложные таблицы и макеты.
- Извлечение научных данных: Извлечение табличных данных из научных статей.
Surya поддерживает работу на CPU/GPU и значительно повышает скорость распознавания благодаря пакетной обработке и оптимизации предварительной обработки изображений (например, денуазирование, масштабирование серого) для нужд оцифровки документов на уровне предприятия.
В настоящее время на GitHub у него 16,8 тыс. звезд!


开源地址:https://github.com/VikParuchuri/surya
06 OCRmyPDF: добавление текстового слоя с возможностью поиска в отсканированные PDF-файлы
Этот инструмент с открытым исходным кодом предназначен для сканирования PDF-документов (т.е. PDF - это все изображения, изображения в тексте не могут быть скопированы) для добавления текстового слоя с возможностью поиска и копирования.
Сценарии применения:
- Оцифровка архивов: Преобразование отсканированных бумажных документов в PDF с возможностью поиска.
- Доступность: Доступные PDF-документы для людей с ослабленным зрением.
- Информационный поиск: Легко находить информацию из большого количества отсканированных документов.
Преимущество:
- Точная идентификация: Поддержка более 100 языков с помощью движка Tesseract OCR.
- Оптимизация изображений: Автоматически исправляет перекошенные и повернутые не туда страницы, чтобы повысить скорость распознавания.
- Пакетная обработка: Эффективная обработка тысяч страниц документов с ускорением многоядерного процессора.
OCRmyPDF имеет явное преимущество в обработке отсканированных PDF-файлов, прост в установке и использовании, совместим с Linux, Windows, macOS и Docker, что делает его более удобным решением по сравнению с другими инструментами, требующими ручной обработки отсканированных документов.
В настоящее время он получил 20,7 тыс. звезд на GitHub!
При открытии PDF-файлов с изображениями вы обнаружите, что текст на изображении не может быть скопирован и найден. OCRmyPDF может встроить текстовый слой OCR под изображение, поддерживая высокоточное копирование и поиск.

开源地址:https://github.com/ocrmypdf/OCRmyPDF
接入文档:https://ocrmypdf.readthedocs.io/en/latest/
07 Маркер: преобразование PDF, изображений и других многоформатных документов
Маркер Это эффективный инструмент для преобразования документов, разработанный Виком Паручури, который позволяет быстро конвертировать PDF, изображения, документы Office и форматы EPUB в Markdown, JSON или HTML.
Преимущество: Маркер Он отлично справляется с разбором сложного контента (например, таблиц, математических формул, блоков кода) с высокой точностью и отличной скоростью обработки, поддерживает ускорение GPU и превосходит аналогичные облачные сервисы (например, Llamaparse, Mathpix).
Приложения:
- Преобразование академических документов: Конвертируйте PDF-документы в Markdown для удобного редактирования и цитирования.
- Создание технической документации: Преобразование документов, содержащих код и диаграммы, в удобный для публикации формат HTML.
- Извлечение данных: Извлечение данных из таблиц и форм в формат JSON для упрощения последующей обработки.
Marker может использовать большие языковые модели (например, Gemini, Ollama) для оптимизации таких результатов, как объединение межстраничных таблиц, форматирование формул, извлечение данных из форм.
В настоящее время на GitHub у него 22,8 тыс. звезд.

开源地址:https://github.com/vikParuchuri/marker
08 EasyOCR: библиотека многоязычных инструментов для распознавания текста
EasyOCR Это библиотека инструментов OCR с открытым исходным кодом, разработанная JaidedAI, которая вводит изображение и возвращает извлеченный текст, координаты соответствующего места и уровень доверия.
Особенности:
- Многоязычная поддержка: Поддержка более 80 языков и различных систем письма (например, китайского, латинского, арабского).
- Готовы к использованию: Предоставляет предварительно обученные модели для быстрого развертывания без дополнительного обучения.
- Гибкий вход: Поддерживает множество форм ввода, таких как изображения, потоки байтов, URL-адреса и т. д.
- Простота API: Вывод содержания, положения и достоверности текста через удобный API.
- Совместимость с процессором и графическим процессором: Операционная среда может быть гибко выбрана в зависимости от аппаратных условий.
Модель обучения: EasyOCR основан на фреймворке глубокого обучения PyTorch и использует для обучения структуру модели CRNN (Convolutional Recurrent Neural Network) в сочетании с функцией потерь CTC (Connectionist Temporal Classification).
Сценарии применения:
- Многоязычное распознавание документов: Идеально подходит для работы с документами, содержащими несколько языков.
- Распознавание текста на естественной сцене: Он может использоваться для распознавания текста в естественных сценах, таких как дорожные знаки и номерные знаки.
- Мобильный OCR: Модель легкая и подходит для развертывания на мобильных устройствах.
EasyOCR сочетает в себе удобство для разработчиков и требования к промышленным приложениям для таких сценариев OCR, как многоязычные документы и текст естественной сцены.
В настоящее время на GitHub у него 26 тысяч звезд.



开源地址:https://github.com/JaidedAI/EasyOCR
Demo 地址:https://www.jaided.ai/documentai/demo
09 Umi-OCR: автономное программное обеспечение OCR, которое устанавливается и сразу же работает
Это бесплатная, с открытым исходным кодом, автономная программа для распознавания текста OCR, поддерживает системы Windows 7+ x64 и Linux x64, не требует подключения к сети, загружается и запускается локально.
Ключевые слова: локальное программное обеспечение, распаковка и запуск в автономном режиме; скриншот OCR; пакетный OCR;
Преимущество:
- Работает в автономном режиме: Для защиты конфиденциальности пользователя не требуется подключение к Интернету.
- Простота в использовании: Обеспечивает графический интерфейс для простого управления.
- Богатый функционал: Поддержка распознавания скриншотов, пакетного распознавания и многих других функций.
- Сравните это с другими офлайн-инструментами: Отличается простой установкой и не требует настройки операционной среды.
На данный момент он заработал 30,8 тыс. звезд.



开源地址:https://github.com/hiroi-sora/Umi-OCR
10 Тессеракт: древние боги поля OCR
Тессеракт Это мощный и широко используемый OCR-движок с открытым исходным кодом, который преобразует текст на изображениях в редактируемый текст.
Исторический контекст:
- Разработан компанией Hewlett-Packard Laboratories в период с 1985 по 1994 год.
- После 1996 года она была перенесена на Windows.
- HP сделала его открытым в 2005 году.
- Спонсируемая компанией Google, она является одной из наиболее известных систем OCR с открытым исходным кодом.
Технические характеристики:
- Методы глубокого обучения: Распознавание символов с помощью передовых методов глубокого обучения (например, конволюционных нейронных сетей) отличается высокой точностью, особенно при работе с отсканированными изображениями лучшего качества.
- Многоязычная поддержка: Распознавание текста на более чем 100 языках.
Сравните его с другими двигателями: Tesseract имеет долгую историю, активное сообщество и хорошо документирован, но, возможно, не так хорош, как некоторые новые OCR-движки, при работе со сложными макетами и низкокачественными изображениями.
Существует также JavaScript-версия Tesseract OCR: Tesseract.js, но после реального тестирования выяснилось, что JS-версия не очень хорошо поддерживает китайский язык.
На данный момент он получил 65,3 тыс. звезд на GitHub.

开源地址:https://github.com/tesseract-ocr/tesseract
开源地址:https://github.com/naptha/tesseract.js

© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...