GOT-OCR2.0: Основан на сквозной мультимодальной модели распознавания текста QWen2 0.5B

Общее введение

GOT-OCR2.0 - это совместно предложенная StepStar модель оптического распознавания символов (OCR) с открытым исходным кодом, целью которой является продвижение технологии OCR к OCR-2.0 с помощью единой сквозной модели. Модель поддерживает широкий спектр задач OCR, включая распознавание обычного текста, распознавание форматированного текста, мелкозернистое OCR, многократное OCR и многостраничное OCR. GOT-OCR2.0 разработана с целью предоставления универсального и эффективного решения для широкого спектра сложных сценариев применения OCR.

Основана на модели QWen2 0,5 B. Названная OCR 2.0, сквозная модель OCR с 580M параметрами получила оценку BLEU 0,972. Адрес сайта: https://huggingface.co/spaces/ucaslcl/GOT_online.

 

GOT-OCR2.0:基于 QWen2 0.5B 端到端的多模态OCR模型

 

GOT-OCR2.0:基于 QWen2 0.5B 端到端的多模态OCR模型

 

 

Список функций

  • Распознавание обычного текста: распознавание обычного текста на изображениях.
  • Распознавание форматированного текста: распознает и сохраняет информацию о форматировании текста, например, таблицы, абзацы и т.д.
  • Тонкий OCR: распознавание мелкого текста на изображениях и текста на сложных фонах.
  • Multi-crop OCR: поддерживает многократное обрезание изображения и распознает текст в каждой обрезанной области.
  • Многостраничный OCR: поддержка OCR многостраничных документов.

 

 

Использование помощи

Процесс установки

  1. Клонируйте код проекта:
    git clone https://github.com/Ucas-HaoranWei/GOT-OCR2.0.git
    cd GOT-OCR2.0
    
  2. Создайте и активируйте виртуальную среду:
    conda create -n got python=3.10 -y
    conda activate got
    
  3. Установите зависимости проекта:
    pip install -e .
    
  4. Установите Flash-Attention:
    pip install ninja
    pip install flash-attn --no-build-isolation
    

Получение весов модели GOT

Процесс использования

  1. Подготовить исходные данные: поместите изображение или документ для распознавания в указанный каталог входных данных.
  2. Запустите модель OCR:
    python3 GOT/demo/run_ocr_2.0.py --model-name /GOT_weights/ --image-file /an/image/file.png --type ocr
    
  3. Просмотр вывода: обработанный OCR текст будет сохранен в указанном каталоге вывода, и пользователи смогут обрабатывать его по мере необходимости.

Функции

  • Распознавание обычного текста: Распознает и выводит обычный текстовый контент на изображениях в виде обычных текстовых файлов, подходящих для простых задач извлечения текста.
  • Распознавание форматированного текста: Сохраняйте информацию о форматировании, например таблицы, абзацы и т. д., при распознавании текста - для случаев, когда необходимо сохранить исходное форматирование документа.
  • Тонкое распознавание текста: Распознавание мелкого текста на сложных фонах, подходит для сцен, требующих высокоточного выделения текста.
  • Мультикультурный OCR: Обрезает изображение несколько раз и распознает текст в каждой обрезанной области, что подходит для сценариев, требующих распознавания изображений в нескольких областях.
  • Многостраничное распознавание текста: Поддерживает распознавание многостраничных документов, что подходит для сценариев, в которых обрабатываются длинные документы или многостраничные PDF-файлы.

Выполнив описанные выше действия, пользователи смогут легко установить и использовать модель GOT-OCR2.0 для решения различных задач OCR. Модель предоставляет богатые функциональные модули для удовлетворения потребностей OCR в различных сценариях.

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...