GOT-OCR2.0: Основан на сквозной мультимодальной модели распознавания текста QWen2 0.5B

Последние ресурсы по искусственному интеллекту2年前更新 Круг обмена ИИ

63.1K 00

Общее введение

GOT-OCR2.0 - это совместно предложенная StepStar модель оптического распознавания символов (OCR) с открытым исходным кодом, целью которой является продвижение технологии OCR к OCR-2.0 с помощью единой сквозной модели. Модель поддерживает широкий спектр задач OCR, включая распознавание обычного текста, распознавание форматированного текста, мелкозернистое OCR, многократное OCR и многостраничное OCR. GOT-OCR2.0 разработана с целью предоставления универсального и эффективного решения для широкого спектра сложных сценариев применения OCR.

Основана на модели QWen2 0,5 B. Названная OCR 2.0, сквозная модель OCR с 580M параметрами получила оценку BLEU 0,972. Адрес сайта: https://huggingface.co/spaces/ucaslcl/GOT_online.

Список функций

Распознавание обычного текста: распознавание обычного текста на изображениях.
Распознавание форматированного текста: распознает и сохраняет информацию о форматировании текста, например, таблицы, абзацы и т.д.
Тонкий OCR: распознавание мелкого текста на изображениях и текста на сложных фонах.
Multi-crop OCR: поддерживает многократное обрезание изображения и распознает текст в каждой обрезанной области.
Многостраничный OCR: поддержка OCR многостраничных документов.

Использование помощи

Процесс установки

Клонируйте код проекта:

git clone https://github.com/Ucas-HaoranWei/GOT-OCR2.0.git
cd GOT-OCR2.0

Создайте и активируйте виртуальную среду:
```
conda create -n got python=3.10 -y
conda activate got
```
Установите зависимости проекта:
```
pip install -e .
```

Установите Flash-Attention:

pip install ninja
pip install flash-attn --no-build-isolation

Получение весов модели GOT

Процесс использования

Подготовить исходные данные: поместите изображение или документ для распознавания в указанный каталог входных данных.

Запустите модель OCR:

python3 GOT/demo/run_ocr_2.0.py --model-name /GOT_weights/ --image-file /an/image/file.png --type ocr

Просмотр вывода: обработанный OCR текст будет сохранен в указанном каталоге вывода, и пользователи смогут обрабатывать его по мере необходимости.

Функции

Распознавание обычного текста: Распознает и выводит обычный текстовый контент на изображениях в виде обычных текстовых файлов, подходящих для простых задач извлечения текста.
Распознавание форматированного текста: Сохраняйте информацию о форматировании, например таблицы, абзацы и т. д., при распознавании текста - для случаев, когда необходимо сохранить исходное форматирование документа.
Тонкое распознавание текста: Распознавание мелкого текста на сложных фонах, подходит для сцен, требующих высокоточного выделения текста.
Мультикультурный OCR: Обрезает изображение несколько раз и распознает текст в каждой обрезанной области, что подходит для сценариев, требующих распознавания изображений в нескольких областях.
Многостраничное распознавание текста: Поддерживает распознавание многостраничных документов, что подходит для сценариев, в которых обрабатываются длинные документы или многостраничные PDF-файлы.

Выполнив описанные выше действия, пользователи смогут легко установить и использовать модель GOT-OCR2.0 для решения различных задач OCR. Модель предоставляет богатые функциональные модули для удовлетворения потребностей OCR в различных сценариях.

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # OCR

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

Text2Voice: графический интерфейс преобразования текста в речь на основе кремниевых потоковых API

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # AI преобразование текста в речь

12 месяцев назад

055.3K

n8n Self-hosted AI Starter Kit: шаблон с открытым исходным кодом для быстрого создания локальной среды ИИ

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct

1 год назад

086.3K

SpicyChat.AI: интерактивная платформа для создания персонализированных бесед с ИИ-персонами

Последние ресурсы по искусственному интеллекту Ролевая игра # AI

12 месяцев назад

085.5K

BISHENG: платформа DevOps с открытым исходным кодом LLM для создания корпоративных приложений искусственного интеллекта

Последние ресурсы по искусственному интеллекту # Low-code workflow # Система разработки интеллектуального тела

1 год назад

086.3K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

GOT-OCR2.0: Основан на сквозной мультимодальной модели распознавания текста QWen2 0.5B

Общее введение

Список функций

Использование помощи

Процесс установки

Получение весов модели GOT

Процесс использования

Функции

TgWechat: плагин сквозного шифрования чата для WeChat

NotebookLM: чтение с извлечением заметок о знаниях, генерация документов нескольких классов, голосовой диалог подкастов

Похожие статьи

Text2Voice: графический интерфейс преобразования текста в речь на основе кремниевых потоковых API

n8n Self-hosted AI Starter Kit: шаблон с открытым исходным кодом для быстрого создания локальной среды ИИ

SpicyChat.AI: интерактивная платформа для создания персонализированных бесед с ИИ-персонами

BISHENG: платформа DevOps с открытым исходным кодом LLM для создания корпоративных приложений искусственного интеллекта

Нет комментариев

Последние коллекции

Последние статьи

GOT-OCR2.0: Основан на сквозной мультимодальной модели распознавания текста QWen2 0.5B

Общее введение

Список функций

Использование помощи

Процесс установки

Получение весов модели GOT

Процесс использования

Функции

TgWechat: плагин сквозного шифрования чата для WeChat

NotebookLM: чтение с извлечением заметок о знаниях, генерация документов нескольких классов, голосовой диалог подкастов

Похожие статьи

Text2Voice: графический интерфейс преобразования текста в речь на основе кремниевых потоковых API

n8n Self-hosted AI Starter Kit: шаблон с открытым исходным кодом для быстрого создания локальной среды ИИ

SpicyChat.AI: интерактивная платформа для создания персонализированных бесед с ИИ-персонами

BISHENG: платформа DevOps с открытым исходным кодом LLM для создания корпоративных приложений искусственного интеллекта

Нет комментариев

Избранные инструменты искусственного интеллекта

Последние коллекции

Последние статьи