Ollama OCR: извлечение текста из изображений с помощью визуальных моделей в Ollama
Общее введение
Оллама OCR - это мощный набор инструментов для оптического распознавания символов (OCR), который извлекает текст из изображений, используя современные визуальные языковые модели, предоставляемые платформой Ollama. Проект доступен как в виде пакета на языке Python, так и в виде удобного интерфейса веб-приложения Streamlit. Он поддерживает широкий спектр моделей зрения, включая LLaVA 7B для обработки в реальном времени и высокоточную модель зрения Llama 3.2 для сложных документов. Ollama OCR отличается поддержкой широкого спектра выходных форматов, включая Markdown, обычный текст, JSON и т. д., а также возможностью пакетной обработки. Инструмент особенно подходит для разработчиков и исследователей, которым необходимо извлекать и структурировать текстовые данные из изображений.

Список функций
- Поддержка нескольких усовершенствованных моделей визуального языка (LLaVA 7B и Llama 3.2 Vision)
- Предоставление различных форматов вывода (Markdown, обычный текст, JSON, структурированные данные, пары ключ-значение)
- Поддержка функции пакетной обработки изображений, можно обрабатывать несколько изображений параллельно
- Встроенная предварительная обработка изображений (изменение размера, нормализация и т. д.)
- Отслеживание хода работ и статистика обработки
- Поддержка удобного веб-интерфейса Streamlit
- Поддержка загрузки изображений с помощью перетаскивания и обработка в режиме реального времени
- Предоставьте функцию загрузки извлеченного текста
- Встроенный предварительный просмотр изображений и отображение подробной информации
Использование помощи
1. Этапы установки
- Сначала необходимо установить платформу Ollama:
- Посетите официальный сайт Ollama, чтобы загрузить установочный пакет для вашей системы.
- Завершите базовую установку Ollama
- Установите необходимую визуальную модель:
ollama pull llama3.2-vision:11b
- Установите пакет Ollama OCR:
pip install ollama-ocr
2. Использование пакета Python
2.1 Обработка одиночных изображений
from ollama_ocr import OCRProcessor
# 初始化OCR处理器
ocr = OCRProcessor(model_name='llama3.2-vision:11b')
# 处理单张图像
result = ocr.process_image(
image_path="图片路径.png",
format_type="markdown" # 可选格式:markdown, text, json, structured, key_value
)
print(result)
2.2 Пакетная обработка изображений
# 初始化OCR处理器,设置并行处理数
ocr = OCRProcessor(model_name='llama3.2-vision:11b', max_workers=4)
# 批量处理图像
batch_results = ocr.process_batch(
input_path="图片文件夹路径",
format_type="markdown",
recursive=True, # 搜索子目录
preprocess=True # 启用图像预处理
)
# 查看处理结果
for file_path, text in batch_results['results'].items():
print(f"\n文件: {file_path}")
print(f"提取的文本: {text}")
# 查看处理统计
print(f"总图像数: {batch_results['statistics']['total']}")
print(f"成功处理: {batch_results['statistics']['successful']}")
print(f"处理失败: {batch_results['statistics']['failed']}")
3. Как использовать веб-приложение Streamlit
- Клонируйте репозиторий кода:
git clone https://github.com/imanoop7/Ollama-OCR.git
cd Ollama-OCR
- Установите зависимость:
pip install -r requirements.txt
- Запустите веб-приложение:
cd src/ollama_ocr
streamlit run app.py
4. Описание выходных форматов
- Форматирование в формате Markdown: сохраняет форматирование текста, включая заголовки и списки.
- Форматирование обычного текста: обеспечивает чистое и простое извлечение текста
- Формат JSON: вывод структурированных данных
- Структурированные форматы: таблицы и упорядоченные данные
- Формат пар ключ-значение: извлечение маркированной информации
5. предостережения
- Модель LLaVA может иногда давать некорректные результаты, поэтому для важных сценариев рекомендуется использовать модель Llama 3.2 Vision
- Предварительная обработка изображений может повысить точность распознавания
- При пакетной обработке обратите внимание на разумную настройку количества параллелей, чтобы избежать чрезмерного потребления памяти
- При обработке большого количества изображений рекомендуется включить функцию отслеживания хода выполнения.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...