Ollama OCR : Extraction de texte à partir d'images à l'aide de modèles visuels dans Ollama

Introduction générale

Ollama OCR est une puissante boîte à outils de reconnaissance optique de caractères (OCR) qui extrait du texte à partir d'images en utilisant des modèles de langage visuel de pointe fournis par la plateforme Ollama. Le projet est disponible à la fois sous la forme d'un paquetage Python et d'une interface d'application web Streamlit conviviale. Il prend en charge un large éventail de modèles de vision, notamment LLaVA 7B pour le traitement en temps réel et le modèle de vision de haute précision Llama 3.2 pour les documents complexes. Ollama OCR se distingue par sa prise en charge d'un large éventail de formats de sortie, notamment Markdown, texte brut, JSON, etc. L'outil est particulièrement adapté aux développeurs et aux chercheurs qui ont besoin d'extraire et de structurer des données textuelles à partir d'images.

Ollama OCR:使用Ollama中视觉模型提取图像中的文本

 

Liste des fonctions

  • Prise en charge de plusieurs modèles avancés de langage visuel (LLaVA 7B et Llama 3.2 Vision)
  • Fournir divers formats de sortie (Markdown, texte brut, JSON, données structurées, paires clé-valeur)
  • Prise en charge de la fonction de traitement d'images par lots, permettant de traiter plusieurs images en parallèle
  • Prétraitement intégré des images (redimensionnement, normalisation, etc.)
  • Fournir un suivi de l'avancement des travaux et des statistiques de traitement
  • Prise en charge de l'interface web conviviale Streamlit
  • Prise en charge du téléchargement d'images par glisser-déposer et traitement en temps réel
  • Fournir une fonction de téléchargement pour le texte extrait
  • Prévisualisation intégrée de l'image et affichage d'informations détaillées

 

Utiliser l'aide

1. les étapes de l'installation

  1. La plateforme Ollama doit d'abord être installée :
    • Visitez le site officiel d'Ollama pour télécharger le paquet d'installation pour votre système.
    • Compléter l'installation de base d'Ollama
  2. Installer le modèle visuel requis :
ollama pull llama3.2-vision:11b
  1. Installez le paquetage Ollama OCR :
pip install ollama-ocr

2. utilisation des paquets Python

2.1 Traitement d'une seule image

from ollama_ocr import OCRProcessor
# 初始化OCR处理器
ocr = OCRProcessor(model_name='llama3.2-vision:11b')
# 处理单张图像
result = ocr.process_image(
image_path="图片路径.png",
format_type="markdown"  # 可选格式:markdown, text, json, structured, key_value
)
print(result)

2.2 Traitement des images par lots

# 初始化OCR处理器,设置并行处理数
ocr = OCRProcessor(model_name='llama3.2-vision:11b', max_workers=4)
# 批量处理图像
batch_results = ocr.process_batch(
input_path="图片文件夹路径",
format_type="markdown",
recursive=True,  # 搜索子目录
preprocess=True  # 启用图像预处理
)
# 查看处理结果
for file_path, text in batch_results['results'].items():
print(f"\n文件: {file_path}")
print(f"提取的文本: {text}")
# 查看处理统计
print(f"总图像数: {batch_results['statistics']['total']}")
print(f"成功处理: {batch_results['statistics']['successful']}")
print(f"处理失败: {batch_results['statistics']['failed']}")

3. comment utiliser l'application web Streamlit

  1. Cloner le dépôt de code :
git clone https://github.com/imanoop7/Ollama-OCR.git
cd Ollama-OCR
  1. Installer la dépendance :
pip install -r requirements.txt
  1. Lancer l'application web :
cd src/ollama_ocr
streamlit run app.py

4. description des formats de sortie

  • Formatage Markdown : conserve le formatage du texte, y compris les titres et les listes
  • Formatage de texte brut : permet d'extraire du texte de manière simple et claire.
  • Format JSON : format de données structurées
  • Formats structurés : tableaux et données organisées
  • Format de paires clé-valeur : extraction d'informations étiquetées

5) Précautions

  • Le modèle LLaVA peut parfois produire des résultats incorrects et il est recommandé d'utiliser le modèle Llama 3.2 Vision pour les scénarios importants.
  • Le prétraitement des images peut améliorer la précision de la reconnaissance
  • Lors du traitement par lots, il convient de veiller à un paramétrage raisonnable du nombre de parallélismes, afin d'éviter une consommation excessive de mémoire.
  • Il est recommandé d'activer le suivi de la progression lors du traitement d'un grand nombre d'images
© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...