GOT-OCR2.0: Основан на сквозной мультимодальной модели распознавания текста QWen2 0.5B
Общее введение
GOT-OCR2.0 - это совместно предложенная StepStar модель оптического распознавания символов (OCR) с открытым исходным кодом, целью которой является продвижение технологии OCR к OCR-2.0 с помощью единой сквозной модели. Модель поддерживает широкий спектр задач OCR, включая распознавание обычного текста, распознавание форматированного текста, мелкозернистое OCR, многократное OCR и многостраничное OCR. GOT-OCR2.0 разработана с целью предоставления универсального и эффективного решения для широкого спектра сложных сценариев применения OCR.
Основана на модели QWen2 0,5 B. Названная OCR 2.0, сквозная модель OCR с 580M параметрами получила оценку BLEU 0,972. Адрес сайта: https://huggingface.co/spaces/ucaslcl/GOT_online.


Список функций
- Распознавание обычного текста: распознавание обычного текста на изображениях.
- Распознавание форматированного текста: распознает и сохраняет информацию о форматировании текста, например, таблицы, абзацы и т.д.
- Тонкий OCR: распознавание мелкого текста на изображениях и текста на сложных фонах.
- Multi-crop OCR: поддерживает многократное обрезание изображения и распознает текст в каждой обрезанной области.
- Многостраничный OCR: поддержка OCR многостраничных документов.
Использование помощи
Процесс установки
- Клонируйте код проекта:
git clone https://github.com/Ucas-HaoranWei/GOT-OCR2.0.git cd GOT-OCR2.0
- Создайте и активируйте виртуальную среду:
conda create -n got python=3.10 -y conda activate got
- Установите зависимости проекта:
pip install -e .
- Установите Flash-Attention:
pip install ninja pip install flash-attn --no-build-isolation
Получение весов модели GOT
- Обнимая лицо
- Google Диск
- Облако Baidu(Код извлечения: OCR2)
Процесс использования
- Подготовить исходные данные: поместите изображение или документ для распознавания в указанный каталог входных данных.
- Запустите модель OCR:
python3 GOT/demo/run_ocr_2.0.py --model-name /GOT_weights/ --image-file /an/image/file.png --type ocr
- Просмотр вывода: обработанный OCR текст будет сохранен в указанном каталоге вывода, и пользователи смогут обрабатывать его по мере необходимости.
Функции
- Распознавание обычного текста: Распознает и выводит обычный текстовый контент на изображениях в виде обычных текстовых файлов, подходящих для простых задач извлечения текста.
- Распознавание форматированного текста: Сохраняйте информацию о форматировании, например таблицы, абзацы и т. д., при распознавании текста - для случаев, когда необходимо сохранить исходное форматирование документа.
- Тонкое распознавание текста: Распознавание мелкого текста на сложных фонах, подходит для сцен, требующих высокоточного выделения текста.
- Мультикультурный OCR: Обрезает изображение несколько раз и распознает текст в каждой обрезанной области, что подходит для сценариев, требующих распознавания изображений в нескольких областях.
- Многостраничное распознавание текста: Поддерживает распознавание многостраничных документов, что подходит для сценариев, в которых обрабатываются длинные документы или многостраничные PDF-файлы.
Выполнив описанные выше действия, пользователи смогут легко установить и использовать модель GOT-OCR2.0 для решения различных задач OCR. Модель предоставляет богатые функциональные модули для удовлетворения потребностей OCR в различных сценариях.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...