Углубленная инвентаризация проектов с открытым исходным кодом OCR: 10 лучших, которые не стоит пропускать в 2025 году

Новости ИИОпубликовано 1 год назад Круг обмена ИИ

80.9K 00

Технология OCR способна преобразовывать текстовую информацию на изображении в редактируемые и обрабатываемые текстовые данные. Проще говоря, она распознает и извлекает текст из изображений.

Далее мы рассмотрим 10 проектов OCR с открытым исходным кодом с наибольшим количеством звезд на GitHub, чтобы предоставить вам подробное руководство по выбору инструмента OCR.

01 GOT-OCR 2.0: сквозная мультимодальная модель OCR

GOT-OCR 2.0 Это сквозная мультимодальная модель OCR с открытым исходным кодом и размером модели всего 1,43 ГБ. Она не только распознает и извлекает текст, но и обрабатываетМатематические формулы, молекулярные формулы, диаграммы, ноты, геометрические фигурыи многие другие, что значительно расширяет сферу применения технологии OCR.

Особенности модели:

Мультимодальная поддержка: Помимо обычного текста, он может работать с широким спектром сложного содержимого.
Легкие модели: Размер модели составляет всего 1,43 ГБ, что упрощает ее развертывание.
Сквозная идентификация: Нет необходимости в сложных процедурах предварительной и последующей обработки.

Преимущество: GOT-OCR 2.0 обладает очевидными преимуществами при работе со сложными сценариями и разнообразным содержимым и подходит для сценариев, в которых необходимо обрабатывать несколько типов документов.

В настоящее время на GitHub у него 7,2 тыс. звезд!

开源地址：https://github.com/Ucas-HaoranWei/GOT-OCR2.0

02 InternVL: мощная мультимодальная модель с открытым исходным кодом

InternVL это мультимодальная макромодель с открытым исходным кодом, разработанная командой OpenGVLab, цель которой - обеспечить близкое приближение к GPT-4V и Близнецы Альтернатива производительности коммерческих моделей, таких как Pro.

Хотя InternVL относится к визуальным большим моделям, сцена применения более обширна, например, понимание изображений, а не вертикальная модель поля OCR, но она может быть обратно совместима с извлечением текста OCR из сцены. Существует множество отличных визуальных моделей с открытым исходным кодом, в этой статье мы не будем перечислять их все, а лишь приведем InternVL в качестве примера.

Особенности модели:

Мультимодальные возможности: Поддерживает широкий спектр задач, таких как понимание изображений и визуальный опрос.
Высокая производительность: Приближение к производительности коммерческих моделей.
Открытый исходный код: Удобство для разработчиков при вторичной разработке и настройке.

Преимущество: InternVL, как визуальная макромодель, имеет преимущества в обработке сложных изображений и понимании их содержания, а также отвечает основным требованиям OCR.

На данный момент она получила 7,2 тыс. звезд.

开源地址：https://github.com/OpenGVLab/InternVL

03 olmOCR: эксперт по структурированию PDF-документов

olmOCR разработан компанией AllenAI и ориентирован на Линеаризация PDF-документовИнструментарий для преобразования сложных PDF-файлов в структурированный текст, пригодный для обучения моделированию на большом языке (LLM).

Его основная задача - генерировать связные текстовые данные, эффективно справляясь с такими проблемами PDF, как смешанный текст и графика, многоколоночная верстка и т. д., и улучшить способность LLM понимать документы в реальных сценариях.

Технические детали:

Анализ макета: Точное распознавание многоколоночных макетов текста, изображений, таблиц и т.д. в PDF.
Линеаризация текста: Преобразование сложных макетов в линейные текстовые последовательности, пригодные для обработки LLM.
Реорганизация контента: Решайте задачи, такие как межстраничные, межколоночные и т. д., чтобы обеспечить связность текста.

Сценарии применения:

Анализ научных работ: Быстрое извлечение ключевой информации из бумаги.
Обработка юридических документов: Структурированное извлечение содержимого документов, таких как договоры, судебные решения и т.д.
Анализ финансовых отчетов: Автоматизированное извлечение финансовых данных и ключевых показателей.

Необходимая конфигурация - современный графический процессор NVIDIA (проверено на RTX 4090, L40S, A100, H100) с не менее чем 20 ГБ оперативной памяти GPU и 30 ГБ свободного места на диске.

На данный момент она получила 9,8 тыс. звезд!

开源地址：https://github.com/allenai/olmocr
在线演示：https://olmocr.allenai.org/

04 Zerox: инструмент для преобразования структурированных документов на основе искусственного интеллекта

Zerox Это инструмент для извлечения документов на основе искусственного интеллекта, разработанный командой Omni-AI, который преобразует документы в формате PDF, изображения, Docx и т. д. в структурированные файлы Markdown.

Преимущество:

Обучение не требуется: В отличие от традиционных инструментов OCR, Zerox может работать со сложными макетами без необходимости предварительного обучения модели.
Прямая генерация структурированного контента: Реализуйте OCR на основе визуальной модели (например, GPT-4o-mini) и создавайте структурированный контент напрямую.
Сохраните логическую структуру: Распознавайте колонки в научных статьях, блоки кода в технической документации, формы договоров, формулы в контрольных работах и т. д. и создавайте аккуратные Markdown.
Сравнение с традиционным OCR Zerox опускает традиционные этапы анализа макета, сокращения структуры таблиц и т.д. и выводит результаты в формате Markdown напрямую.

В настоящее время получает 10.3K Star!

开源地址：https://github.com/getomni-ai/zerox
体验地址：https://getomni.ai/ocr-demo

05 Surya: распознавание многоязычных текстов и сложных структур документов

Сурья Занимается распознаванием многоязычных текстов и сложных структур документов, уделяя особое внимание распознаванию таблиц.

Ключевые слова: распознавание текста на уровне строк, анализ макета (обнаружение таблиц, изображений, подписей и т. д.), определение порядка чтения, распознавание таблиц (определение строк/колонок), LaTeX OCR

Ключевые особенности:

Многоязычная поддержка: Поддержка более 90 языков, включая сложные шрифты, такие как китайский, японский и арабский, а также основные языки, такие как английский и испанский, для обработки документов в глобализованных сценариях.
Оптимизация распознавания форм: Может точно определять строки, столбцы и структуру ячеек таблицы, включая вращающиеся или сложные макеты таблицы, производительность лучше, чем у текущих основных моделей с открытым исходным кодом (например, Table Transformer).
Сложный разбор документов: Он может определять заголовок, изображения, абзацы и другие элементы в документе и разумно оценивать порядок чтения, чтобы избежать путаницы в содержимом.

Пример сценария применения:

Оцифровка многоязычных документов: Многоязычные контракты, отчеты и т. д. работают с многонациональными компаниями.
Оцифровка исторических архивов: Работа с историческими документами, содержащими сложные таблицы и макеты.
Извлечение научных данных: Извлечение табличных данных из научных статей.

Surya поддерживает работу на CPU/GPU и значительно повышает скорость распознавания благодаря пакетной обработке и оптимизации предварительной обработки изображений (например, денуазирование, масштабирование серого) для нужд оцифровки документов на уровне предприятия.

В настоящее время на GitHub у него 16,8 тыс. звезд!

开源地址：https://github.com/VikParuchuri/surya

06 OCRmyPDF: добавление текстового слоя с возможностью поиска в отсканированные PDF-файлы

Этот инструмент с открытым исходным кодом предназначен для сканирования PDF-документов (т.е. PDF - это все изображения, изображения в тексте не могут быть скопированы) для добавления текстового слоя с возможностью поиска и копирования.

Сценарии применения:

Оцифровка архивов: Преобразование отсканированных бумажных документов в PDF с возможностью поиска.
Доступность: Доступные PDF-документы для людей с ослабленным зрением.
Информационный поиск: Легко находить информацию из большого количества отсканированных документов.

Преимущество:

Точная идентификация: Поддержка более 100 языков с помощью движка Tesseract OCR.
Оптимизация изображений: Автоматически исправляет перекошенные и повернутые не туда страницы, чтобы повысить скорость распознавания.
Пакетная обработка: Эффективная обработка тысяч страниц документов с ускорением многоядерного процессора.

OCRmyPDF имеет явное преимущество в обработке отсканированных PDF-файлов, прост в установке и использовании, совместим с Linux, Windows, macOS и Docker, что делает его более удобным решением по сравнению с другими инструментами, требующими ручной обработки отсканированных документов.

В настоящее время он получил 20,7 тыс. звезд на GitHub!

При открытии PDF-файлов с изображениями вы обнаружите, что текст на изображении не может быть скопирован и найден. OCRmyPDF может встроить текстовый слой OCR под изображение, поддерживая высокоточное копирование и поиск.

开源地址：https://github.com/ocrmypdf/OCRmyPDF
接入文档：https://ocrmypdf.readthedocs.io/en/latest/

07 Маркер: преобразование PDF, изображений и других многоформатных документов

Маркер Это эффективный инструмент для преобразования документов, разработанный Виком Паручури, который позволяет быстро конвертировать PDF, изображения, документы Office и форматы EPUB в Markdown, JSON или HTML.

Преимущество: Маркер Он отлично справляется с разбором сложного контента (например, таблиц, математических формул, блоков кода) с высокой точностью и отличной скоростью обработки, поддерживает ускорение GPU и превосходит аналогичные облачные сервисы (например, Llamaparse, Mathpix).

Приложения:

Преобразование академических документов: Конвертируйте PDF-документы в Markdown для удобного редактирования и цитирования.
Создание технической документации: Преобразование документов, содержащих код и диаграммы, в удобный для публикации формат HTML.
Извлечение данных: Извлечение данных из таблиц и форм в формат JSON для упрощения последующей обработки.

Marker может использовать большие языковые модели (например, Gemini, Ollama) для оптимизации таких результатов, как объединение межстраничных таблиц, форматирование формул, извлечение данных из форм.

В настоящее время на GitHub у него 22,8 тыс. звезд.

开源地址：https://github.com/vikParuchuri/marker

08 EasyOCR: библиотека многоязычных инструментов для распознавания текста

EasyOCR Это библиотека инструментов OCR с открытым исходным кодом, разработанная JaidedAI, которая вводит изображение и возвращает извлеченный текст, координаты соответствующего места и уровень доверия.

Особенности:

Многоязычная поддержка: Поддержка более 80 языков и различных систем письма (например, китайского, латинского, арабского).
Готовы к использованию: Предоставляет предварительно обученные модели для быстрого развертывания без дополнительного обучения.
Гибкий вход: Поддерживает множество форм ввода, таких как изображения, потоки байтов, URL-адреса и т. д.
Простота API: Вывод содержания, положения и достоверности текста через удобный API.
Совместимость с процессором и графическим процессором: Операционная среда может быть гибко выбрана в зависимости от аппаратных условий.

Модель обучения: EasyOCR основан на фреймворке глубокого обучения PyTorch и использует для обучения структуру модели CRNN (Convolutional Recurrent Neural Network) в сочетании с функцией потерь CTC (Connectionist Temporal Classification).

Сценарии применения:

Многоязычное распознавание документов: Идеально подходит для работы с документами, содержащими несколько языков.
Распознавание текста на естественной сцене: Он может использоваться для распознавания текста в естественных сценах, таких как дорожные знаки и номерные знаки.
Мобильный OCR: Модель легкая и подходит для развертывания на мобильных устройствах.

EasyOCR сочетает в себе удобство для разработчиков и требования к промышленным приложениям для таких сценариев OCR, как многоязычные документы и текст естественной сцены.

В настоящее время на GitHub у него 26 тысяч звезд.

开源地址：https://github.com/JaidedAI/EasyOCR
Demo 地址：https://www.jaided.ai/documentai/demo

09 Umi-OCR: автономное программное обеспечение OCR, которое устанавливается и сразу же работает

Это бесплатная, с открытым исходным кодом, автономная программа для распознавания текста OCR, поддерживает системы Windows 7+ x64 и Linux x64, не требует подключения к сети, загружается и запускается локально.

Ключевые слова: локальное программное обеспечение, распаковка и запуск в автономном режиме; скриншот OCR; пакетный OCR;

Преимущество:

Работает в автономном режиме: Для защиты конфиденциальности пользователя не требуется подключение к Интернету.
Простота в использовании: Обеспечивает графический интерфейс для простого управления.
Богатый функционал: Поддержка распознавания скриншотов, пакетного распознавания и многих других функций.
Сравните это с другими офлайн-инструментами: Отличается простой установкой и не требует настройки операционной среды.

На данный момент он заработал 30,8 тыс. звезд.

开源地址：https://github.com/hiroi-sora/Umi-OCR

10 Тессеракт: древние боги поля OCR

Тессеракт Это мощный и широко используемый OCR-движок с открытым исходным кодом, который преобразует текст на изображениях в редактируемый текст.

Исторический контекст:

Разработан компанией Hewlett-Packard Laboratories в период с 1985 по 1994 год.
После 1996 года она была перенесена на Windows.
HP сделала его открытым в 2005 году.
Спонсируемая компанией Google, она является одной из наиболее известных систем OCR с открытым исходным кодом.

Технические характеристики:

Методы глубокого обучения: Распознавание символов с помощью передовых методов глубокого обучения (например, конволюционных нейронных сетей) отличается высокой точностью, особенно при работе с отсканированными изображениями лучшего качества.
Многоязычная поддержка: Распознавание текста на более чем 100 языках.

Сравните его с другими двигателями: Tesseract имеет долгую историю, активное сообщество и хорошо документирован, но, возможно, не так хорош, как некоторые новые OCR-движки, при работе со сложными макетами и низкокачественными изображениями.

Существует также JavaScript-версия Tesseract OCR: Tesseract.js, но после реального тестирования выяснилось, что JS-версия не очень хорошо поддерживает китайский язык.

На данный момент он получил 65,3 тыс. звезд на GitHub.

开源地址：https://github.com/tesseract-ocr/tesseract
开源地址：https://github.com/naptha/tesseract.js

Новости ИИ

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

Подробный обзор 10 лучших проектов преобразования текста в речь

Новости ИИ

1 год назад

0121.1K

Первое крупное обновление API ChatGPT для 2024 года

Новости ИИ

1 год назад

043.7K

智谱 AI 发布开源 GLM 模型家族：MIT 许可、Z.ai 平台与高速推理服务同步亮相

Smart Spectrum AI выпускает семейство моделей GLM с открытым исходным кодом: лицензирование MIT, платформа Z.ai и высокоскоростной сервис вывода данных

Новости ИИ

11 месяцев назад

076.1K

Mistral Small 3.1 vs. Gemma 3：240亿参数能否挑战270亿？

Mistral Small 3.1 против Gemma 3: Сможет ли 24-миллиардный параметр бросить вызов 27-миллиардному?

Новости ИИ

1 год назад

047.5K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

Углубленная инвентаризация проектов с открытым исходным кодом OCR: 10 лучших, которые не стоит пропускать в 2025 году

01 GOT-OCR 2.0: сквозная мультимодальная модель OCR

02 InternVL: мощная мультимодальная модель с открытым исходным кодом

03 olmOCR: эксперт по структурированию PDF-документов

04 Zerox: инструмент для преобразования структурированных документов на основе искусственного интеллекта

05 Surya: распознавание многоязычных текстов и сложных структур документов

06 OCRmyPDF: добавление текстового слоя с возможностью поиска в отсканированные PDF-файлы

07 Маркер: преобразование PDF, изображений и других многоформатных документов

08 EasyOCR: библиотека многоязычных инструментов для распознавания текста

09 Umi-OCR: автономное программное обеспечение OCR, которое устанавливается и сразу же работает

10 Тессеракт: древние боги поля OCR

Запоздалая функция "Холст" в Gemini - испытайте ее возможности!

Dify v1.1.0 Новый интеллектуальный фильтр "Метаданные" для базы знаний

Похожие статьи

Подробный обзор 10 лучших проектов преобразования текста в речь

Первое крупное обновление API ChatGPT для 2024 года

Smart Spectrum AI выпускает семейство моделей GLM с открытым исходным кодом: лицензирование MIT, платформа Z.ai и высокоскоростной сервис вывода данных

Mistral Small 3.1 против Gemma 3: Сможет ли 24-миллиардный параметр бросить вызов 27-миллиардному?

Нет комментариев

Последние коллекции

Последние статьи

Углубленная инвентаризация проектов с открытым исходным кодом OCR: 10 лучших, которые не стоит пропускать в 2025 году

01 GOT-OCR 2.0: сквозная мультимодальная модель OCR

02 InternVL: мощная мультимодальная модель с открытым исходным кодом

03 olmOCR: эксперт по структурированию PDF-документов

04 Zerox: инструмент для преобразования структурированных документов на основе искусственного интеллекта

05 Surya: распознавание многоязычных текстов и сложных структур документов

06 OCRmyPDF: добавление текстового слоя с возможностью поиска в отсканированные PDF-файлы

07 Маркер: преобразование PDF, изображений и других многоформатных документов

08 EasyOCR: библиотека многоязычных инструментов для распознавания текста

09 Umi-OCR: автономное программное обеспечение OCR, которое устанавливается и сразу же работает

10 Тессеракт: древние боги поля OCR

Запоздалая функция "Холст" в Gemini - испытайте ее возможности!

Dify v1.1.0 Новый интеллектуальный фильтр "Метаданные" для базы знаний

Похожие статьи

Подробный обзор 10 лучших проектов преобразования текста в речь

Первое крупное обновление API ChatGPT для 2024 года

Smart Spectrum AI выпускает семейство моделей GLM с открытым исходным кодом: лицензирование MIT, платформа Z.ai и высокоскоростной сервис вывода данных

Mistral Small 3.1 против Gemma 3: Сможет ли 24-миллиардный параметр бросить вызов 27-миллиардному?

Нет комментариев

Избранные инструменты искусственного интеллекта

Последние коллекции

Последние статьи