Ollama OCR: Extracción de texto de imágenes mediante modelos visuales en Ollama

Últimos recursos sobre IAPublicado hace 1 año Círculo de intercambio de inteligencia artificial

104.2K 00

Introducción general

Ollama OCR es un potente conjunto de herramientas de reconocimiento óptico de caracteres (OCR) que extrae texto de imágenes utilizando modelos de lenguaje visual de última generación proporcionados por la plataforma Ollama. El proyecto está disponible como paquete Python y como interfaz de aplicación web Streamlit de fácil uso. Es compatible con una amplia gama de modelos de visión, incluido LLaVA 7B para el procesamiento en tiempo real y el modelo de visión de alta precisión Llama 3.2 para documentos complejos.Ollama OCR se distingue por su compatibilidad con una amplia gama de formatos de salida, incluidos Markdown, texto plano, JSON, etc., y por sus capacidades de procesamiento por lotes. La herramienta es especialmente adecuada para desarrolladores e investigadores que necesitan extraer y estructurar datos de texto a partir de imágenes.

Lista de funciones

Compatibilidad con varios modelos avanzados de lenguaje visual (LLaVA 7B y Llama 3.2 Vision)
Proporciona diversos formatos de salida (Markdown, texto plano, JSON, datos estructurados, pares clave-valor)
Soporta la función de procesamiento de imágenes por lotes, puede procesar múltiples imágenes en paralelo
Preprocesamiento de imágenes integrado (redimensionamiento, normalización, etc.)
Proporcionar estadísticas de seguimiento y procesamiento
Compatible con la sencilla interfaz web Streamlit
Carga de imágenes mediante arrastrar y soltar y procesamiento en tiempo real
Función de descarga del texto extraído
Previsualización de imágenes integrada y visualización de información detallada

Utilizar la ayuda

1. Pasos de la instalación

Primero hay que instalar la plataforma Ollama:
- Visite el sitio web oficial de Ollama para descargar el paquete de instalación correspondiente a su sistema.
- Complete la instalación básica de Ollama
Instale el modelo visual necesario:

ollama pull llama3.2-vision:11b

Instale el paquete Ollama OCR:

pip install ollama-ocr

2. Uso de paquetes Python

2.1 Tratamiento de una sola imagen

from ollama_ocr import OCRProcessor
# 初始化OCR处理器
ocr = OCRProcessor(model_name='llama3.2-vision:11b')
# 处理单张图像
result = ocr.process_image(
image_path="图片路径.png",
format_type="markdown"  # 可选格式：markdown, text, json, structured, key_value
)
print(result)

2.2 Procesamiento de imágenes por lotes

# 初始化OCR处理器，设置并行处理数
ocr = OCRProcessor(model_name='llama3.2-vision:11b', max_workers=4)
# 批量处理图像
batch_results = ocr.process_batch(
input_path="图片文件夹路径",
format_type="markdown",
recursive=True,  # 搜索子目录
preprocess=True  # 启用图像预处理
)
# 查看处理结果
for file_path, text in batch_results['results'].items():
print(f"\n文件: {file_path}")
print(f"提取的文本: {text}")
# 查看处理统计
print(f"总图像数: {batch_results['statistics']['total']}")
print(f"成功处理: {batch_results['statistics']['successful']}")
print(f"处理失败: {batch_results['statistics']['failed']}")

3. Cómo utilizar la aplicación web Streamlit

Clonar el repositorio de código:

git clone https://github.com/imanoop7/Ollama-OCR.git
cd Ollama-OCR

Instale la dependencia:

pip install -r requirements.txt

Inicie la aplicación web:

cd src/ollama_ocr
streamlit run app.py

4. Descripción de los formatos de salida

Formato Markdown: conserva el formato del texto, incluidos los títulos y las listas.
Formato de texto sin formato: proporciona una extracción de texto limpia y sencilla.
Formato JSON: salida en formato de datos estructurados
Formatos estructurados: tablas y datos organizados
Formato par clave-valor: extracción de información etiquetada

5. Precauciones

El modelo LLaVA puede producir ocasionalmente resultados incorrectos, por lo que se recomienda utilizar el modelo Llama 3.2 Vision para escenarios importantes
El preprocesamiento de imágenes puede mejorar la precisión del reconocimiento
Al procesar por lotes, preste atención a la configuración razonable del número de paralelismos, para evitar un consumo excesivo de memoria.
Se recomienda activar el seguimiento del progreso cuando se procese un gran número de imágenes