Ollama OCR : Extraction de texte à partir d'images à l'aide de modèles visuels dans Ollama

Dernières ressources sur l'IAPosté il y a 8 mois Cercle de partage de l'IA

17.8K 00

Introduction générale

Ollama OCR est une puissante boîte à outils de reconnaissance optique de caractères (OCR) qui extrait du texte à partir d'images en utilisant des modèles de langage visuel de pointe fournis par la plateforme Ollama. Le projet est disponible à la fois sous la forme d'un paquetage Python et d'une interface d'application web Streamlit conviviale. Il prend en charge un large éventail de modèles de vision, notamment LLaVA 7B pour le traitement en temps réel et le modèle de vision de haute précision Llama 3.2 pour les documents complexes. Ollama OCR se distingue par sa prise en charge d'un large éventail de formats de sortie, notamment Markdown, texte brut, JSON, etc. L'outil est particulièrement adapté aux développeurs et aux chercheurs qui ont besoin d'extraire et de structurer des données textuelles à partir d'images.

Liste des fonctions

Prise en charge de plusieurs modèles avancés de langage visuel (LLaVA 7B et Llama 3.2 Vision)
Fournir divers formats de sortie (Markdown, texte brut, JSON, données structurées, paires clé-valeur)
Prise en charge de la fonction de traitement d'images par lots, permettant de traiter plusieurs images en parallèle
Prétraitement intégré des images (redimensionnement, normalisation, etc.)
Fournir un suivi de l'avancement des travaux et des statistiques de traitement
Prise en charge de l'interface web conviviale Streamlit
Prise en charge du téléchargement d'images par glisser-déposer et traitement en temps réel
Fournir une fonction de téléchargement pour le texte extrait
Prévisualisation intégrée de l'image et affichage d'informations détaillées

Utiliser l'aide

1. les étapes de l'installation

La plateforme Ollama doit d'abord être installée :
- Visitez le site officiel d'Ollama pour télécharger le paquet d'installation pour votre système.
- Compléter l'installation de base d'Ollama
Installer le modèle visuel requis :

ollama pull llama3.2-vision:11b

Installez le paquetage Ollama OCR :

pip install ollama-ocr

2. utilisation des paquets Python

2.1 Traitement d'une seule image

from ollama_ocr import OCRProcessor
# 初始化OCR处理器
ocr = OCRProcessor(model_name='llama3.2-vision:11b')
# 处理单张图像
result = ocr.process_image(
image_path="图片路径.png",
format_type="markdown"  # 可选格式：markdown, text, json, structured, key_value
)
print(result)

2.2 Traitement des images par lots

# 初始化OCR处理器，设置并行处理数
ocr = OCRProcessor(model_name='llama3.2-vision:11b', max_workers=4)
# 批量处理图像
batch_results = ocr.process_batch(
input_path="图片文件夹路径",
format_type="markdown",
recursive=True,  # 搜索子目录
preprocess=True  # 启用图像预处理
)
# 查看处理结果
for file_path, text in batch_results['results'].items():
print(f"\n文件: {file_path}")
print(f"提取的文本: {text}")
# 查看处理统计
print(f"总图像数: {batch_results['statistics']['total']}")
print(f"成功处理: {batch_results['statistics']['successful']}")
print(f"处理失败: {batch_results['statistics']['failed']}")

3. comment utiliser l'application web Streamlit

Cloner le dépôt de code :

git clone https://github.com/imanoop7/Ollama-OCR.git
cd Ollama-OCR

Installer la dépendance :

pip install -r requirements.txt

Lancer l'application web :

cd src/ollama_ocr
streamlit run app.py

4. description des formats de sortie

Formatage Markdown : conserve le formatage du texte, y compris les titres et les listes
Formatage de texte brut : permet d'extraire du texte de manière simple et claire.
Format JSON : format de données structurées
Formats structurés : tableaux et données organisées
Format de paires clé-valeur : extraction d'informations étiquetées

5) Précautions

Le modèle LLaVA peut parfois produire des résultats incorrects et il est recommandé d'utiliser le modèle Llama 3.2 Vision pour les scénarios importants.
Le prétraitement des images peut améliorer la précision de la reconnaissance
Lors du traitement par lots, il convient de veiller à un paramétrage raisonnable du nombre de parallélismes, afin d'éviter une consommation excessive de mémoire.
Il est recommandé d'activer le suivi de la progression lors du traitement d'un grand nombre d'images