Ollama OCR: извлечение текста из изображений с помощью визуальных моделей в Ollama

Общее введение

Оллама OCR - это мощный набор инструментов для оптического распознавания символов (OCR), который извлекает текст из изображений, используя современные визуальные языковые модели, предоставляемые платформой Ollama. Проект доступен как в виде пакета на языке Python, так и в виде удобного интерфейса веб-приложения Streamlit. Он поддерживает широкий спектр моделей зрения, включая LLaVA 7B для обработки в реальном времени и высокоточную модель зрения Llama 3.2 для сложных документов. Ollama OCR отличается поддержкой широкого спектра выходных форматов, включая Markdown, обычный текст, JSON и т. д., а также возможностью пакетной обработки. Инструмент особенно подходит для разработчиков и исследователей, которым необходимо извлекать и структурировать текстовые данные из изображений.

Ollama OCR:使用Ollama中视觉模型提取图像中的文本

 

Список функций

  • Поддержка нескольких усовершенствованных моделей визуального языка (LLaVA 7B и Llama 3.2 Vision)
  • Предоставление различных форматов вывода (Markdown, обычный текст, JSON, структурированные данные, пары ключ-значение)
  • Поддержка функции пакетной обработки изображений, можно обрабатывать несколько изображений параллельно
  • Встроенная предварительная обработка изображений (изменение размера, нормализация и т. д.)
  • Отслеживание хода работ и статистика обработки
  • Поддержка удобного веб-интерфейса Streamlit
  • Поддержка загрузки изображений с помощью перетаскивания и обработка в режиме реального времени
  • Предоставьте функцию загрузки извлеченного текста
  • Встроенный предварительный просмотр изображений и отображение подробной информации

 

Использование помощи

1. Этапы установки

  1. Сначала необходимо установить платформу Ollama:
    • Посетите официальный сайт Ollama, чтобы загрузить установочный пакет для вашей системы.
    • Завершите базовую установку Ollama
  2. Установите необходимую визуальную модель:
ollama pull llama3.2-vision:11b
  1. Установите пакет Ollama OCR:
pip install ollama-ocr

2. Использование пакета Python

2.1 Обработка одиночных изображений

from ollama_ocr import OCRProcessor
# 初始化OCR处理器
ocr = OCRProcessor(model_name='llama3.2-vision:11b')
# 处理单张图像
result = ocr.process_image(
image_path="图片路径.png",
format_type="markdown"  # 可选格式:markdown, text, json, structured, key_value
)
print(result)

2.2 Пакетная обработка изображений

# 初始化OCR处理器,设置并行处理数
ocr = OCRProcessor(model_name='llama3.2-vision:11b', max_workers=4)
# 批量处理图像
batch_results = ocr.process_batch(
input_path="图片文件夹路径",
format_type="markdown",
recursive=True,  # 搜索子目录
preprocess=True  # 启用图像预处理
)
# 查看处理结果
for file_path, text in batch_results['results'].items():
print(f"\n文件: {file_path}")
print(f"提取的文本: {text}")
# 查看处理统计
print(f"总图像数: {batch_results['statistics']['total']}")
print(f"成功处理: {batch_results['statistics']['successful']}")
print(f"处理失败: {batch_results['statistics']['failed']}")

3. Как использовать веб-приложение Streamlit

  1. Клонируйте репозиторий кода:
git clone https://github.com/imanoop7/Ollama-OCR.git
cd Ollama-OCR
  1. Установите зависимость:
pip install -r requirements.txt
  1. Запустите веб-приложение:
cd src/ollama_ocr
streamlit run app.py

4. Описание выходных форматов

  • Форматирование в формате Markdown: сохраняет форматирование текста, включая заголовки и списки.
  • Форматирование обычного текста: обеспечивает чистое и простое извлечение текста
  • Формат JSON: вывод структурированных данных
  • Структурированные форматы: таблицы и упорядоченные данные
  • Формат пар ключ-значение: извлечение маркированной информации

5. предостережения

  • Модель LLaVA может иногда давать некорректные результаты, поэтому для важных сценариев рекомендуется использовать модель Llama 3.2 Vision
  • Предварительная обработка изображений может повысить точность распознавания
  • При пакетной обработке обратите внимание на разумную настройку количества параллелей, чтобы избежать чрезмерного потребления памяти
  • При обработке большого количества изображений рекомендуется включить функцию отслеживания хода выполнения.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...