Ollama OCR: извлечение текста из изображений с помощью визуальных моделей в Ollama

Последние ресурсы по искусственному интеллектуОпубликовано 1 год назад Круг обмена ИИ

101.9K 00

Общее введение

Оллама OCR - это мощный набор инструментов для оптического распознавания символов (OCR), который извлекает текст из изображений, используя современные визуальные языковые модели, предоставляемые платформой Ollama. Проект доступен как в виде пакета на языке Python, так и в виде удобного интерфейса веб-приложения Streamlit. Он поддерживает широкий спектр моделей зрения, включая LLaVA 7B для обработки в реальном времени и высокоточную модель зрения Llama 3.2 для сложных документов. Ollama OCR отличается поддержкой широкого спектра выходных форматов, включая Markdown, обычный текст, JSON и т. д., а также возможностью пакетной обработки. Инструмент особенно подходит для разработчиков и исследователей, которым необходимо извлекать и структурировать текстовые данные из изображений.

Список функций

Поддержка нескольких усовершенствованных моделей визуального языка (LLaVA 7B и Llama 3.2 Vision)
Предоставление различных форматов вывода (Markdown, обычный текст, JSON, структурированные данные, пары ключ-значение)
Поддержка функции пакетной обработки изображений, можно обрабатывать несколько изображений параллельно
Встроенная предварительная обработка изображений (изменение размера, нормализация и т. д.)
Отслеживание хода работ и статистика обработки
Поддержка удобного веб-интерфейса Streamlit
Поддержка загрузки изображений с помощью перетаскивания и обработка в режиме реального времени
Предоставьте функцию загрузки извлеченного текста
Встроенный предварительный просмотр изображений и отображение подробной информации

Использование помощи

1. Этапы установки

Сначала необходимо установить платформу Ollama:
- Посетите официальный сайт Ollama, чтобы загрузить установочный пакет для вашей системы.
- Завершите базовую установку Ollama
Установите необходимую визуальную модель:

ollama pull llama3.2-vision:11b

Установите пакет Ollama OCR:

pip install ollama-ocr

2. Использование пакета Python

2.1 Обработка одиночных изображений

from ollama_ocr import OCRProcessor
# 初始化OCR处理器
ocr = OCRProcessor(model_name='llama3.2-vision:11b')
# 处理单张图像
result = ocr.process_image(
image_path="图片路径.png",
format_type="markdown"  # 可选格式：markdown, text, json, structured, key_value
)
print(result)

2.2 Пакетная обработка изображений

# 初始化OCR处理器，设置并行处理数
ocr = OCRProcessor(model_name='llama3.2-vision:11b', max_workers=4)
# 批量处理图像
batch_results = ocr.process_batch(
input_path="图片文件夹路径",
format_type="markdown",
recursive=True,  # 搜索子目录
preprocess=True  # 启用图像预处理
)
# 查看处理结果
for file_path, text in batch_results['results'].items():
print(f"\n文件: {file_path}")
print(f"提取的文本: {text}")
# 查看处理统计
print(f"总图像数: {batch_results['statistics']['total']}")
print(f"成功处理: {batch_results['statistics']['successful']}")
print(f"处理失败: {batch_results['statistics']['failed']}")

3. Как использовать веб-приложение Streamlit

Клонируйте репозиторий кода:

git clone https://github.com/imanoop7/Ollama-OCR.git
cd Ollama-OCR

Установите зависимость:

pip install -r requirements.txt

Запустите веб-приложение:

cd src/ollama_ocr
streamlit run app.py

4. Описание выходных форматов

Форматирование в формате Markdown: сохраняет форматирование текста, включая заголовки и списки.
Форматирование обычного текста: обеспечивает чистое и простое извлечение текста
Формат JSON: вывод структурированных данных
Структурированные форматы: таблицы и упорядоченные данные
Формат пар ключ-значение: извлечение маркированной информации

5. предостережения

Модель LLaVA может иногда давать некорректные результаты, поэтому для важных сценариев рекомендуется использовать модель Llama 3.2 Vision
Предварительная обработка изображений может повысить точность распознавания
При пакетной обработке обратите внимание на разумную настройку количества параллелей, чтобы избежать чрезмерного потребления памяти
При обработке большого количества изображений рекомендуется включить функцию отслеживания хода выполнения.