Ollama OCR: Extracción de texto de imágenes mediante modelos visuales en Ollama

Introducción general

Ollama OCR es un potente conjunto de herramientas de reconocimiento óptico de caracteres (OCR) que extrae texto de imágenes utilizando modelos de lenguaje visual de última generación proporcionados por la plataforma Ollama. El proyecto está disponible como paquete Python y como interfaz de aplicación web Streamlit de fácil uso. Es compatible con una amplia gama de modelos de visión, incluido LLaVA 7B para el procesamiento en tiempo real y el modelo de visión de alta precisión Llama 3.2 para documentos complejos.Ollama OCR se distingue por su compatibilidad con una amplia gama de formatos de salida, incluidos Markdown, texto plano, JSON, etc., y por sus capacidades de procesamiento por lotes. La herramienta es especialmente adecuada para desarrolladores e investigadores que necesitan extraer y estructurar datos de texto a partir de imágenes.

Ollama OCR:使用Ollama中视觉模型提取图像中的文本

 

Lista de funciones

  • Compatibilidad con varios modelos avanzados de lenguaje visual (LLaVA 7B y Llama 3.2 Vision)
  • Proporciona diversos formatos de salida (Markdown, texto plano, JSON, datos estructurados, pares clave-valor)
  • Soporta la función de procesamiento de imágenes por lotes, puede procesar múltiples imágenes en paralelo
  • Preprocesamiento de imágenes integrado (redimensionamiento, normalización, etc.)
  • Proporcionar estadísticas de seguimiento y procesamiento
  • Compatible con la sencilla interfaz web Streamlit
  • Carga de imágenes mediante arrastrar y soltar y procesamiento en tiempo real
  • Función de descarga del texto extraído
  • Previsualización de imágenes integrada y visualización de información detallada

 

Utilizar la ayuda

1. Pasos de la instalación

  1. Primero hay que instalar la plataforma Ollama:
    • Visite el sitio web oficial de Ollama para descargar el paquete de instalación correspondiente a su sistema.
    • Complete la instalación básica de Ollama
  2. Instale el modelo visual necesario:
ollama pull llama3.2-vision:11b
  1. Instale el paquete Ollama OCR:
pip install ollama-ocr

2. Uso de paquetes Python

2.1 Tratamiento de una sola imagen

from ollama_ocr import OCRProcessor
# 初始化OCR处理器
ocr = OCRProcessor(model_name='llama3.2-vision:11b')
# 处理单张图像
result = ocr.process_image(
image_path="图片路径.png",
format_type="markdown"  # 可选格式:markdown, text, json, structured, key_value
)
print(result)

2.2 Procesamiento de imágenes por lotes

# 初始化OCR处理器,设置并行处理数
ocr = OCRProcessor(model_name='llama3.2-vision:11b', max_workers=4)
# 批量处理图像
batch_results = ocr.process_batch(
input_path="图片文件夹路径",
format_type="markdown",
recursive=True,  # 搜索子目录
preprocess=True  # 启用图像预处理
)
# 查看处理结果
for file_path, text in batch_results['results'].items():
print(f"\n文件: {file_path}")
print(f"提取的文本: {text}")
# 查看处理统计
print(f"总图像数: {batch_results['statistics']['total']}")
print(f"成功处理: {batch_results['statistics']['successful']}")
print(f"处理失败: {batch_results['statistics']['failed']}")

3. Cómo utilizar la aplicación web Streamlit

  1. Clonar el repositorio de código:
git clone https://github.com/imanoop7/Ollama-OCR.git
cd Ollama-OCR
  1. Instale la dependencia:
pip install -r requirements.txt
  1. Inicie la aplicación web:
cd src/ollama_ocr
streamlit run app.py

4. Descripción de los formatos de salida

  • Formato Markdown: conserva el formato del texto, incluidos los títulos y las listas.
  • Formato de texto sin formato: proporciona una extracción de texto limpia y sencilla.
  • Formato JSON: salida en formato de datos estructurados
  • Formatos estructurados: tablas y datos organizados
  • Formato par clave-valor: extracción de información etiquetada

5. Precauciones

  • El modelo LLaVA puede producir ocasionalmente resultados incorrectos, por lo que se recomienda utilizar el modelo Llama 3.2 Vision para escenarios importantes
  • El preprocesamiento de imágenes puede mejorar la precisión del reconocimiento
  • Al procesar por lotes, preste atención a la configuración razonable del número de paralelismos, para evitar un consumo excesivo de memoria.
  • Se recomienda activar el seguimiento del progreso cuando se procese un gran número de imágenes
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...