Vision Parse : Conversion intelligente de documents PDF au format Markdown à l'aide de modèles de langage visuel

Dernières ressources sur l'IAMise à jour il y a 9 mois Cercle de partage de l'IA

16.7K 00

Introduction générale

Vision Parse est un outil révolutionnaire de traitement de documents qui combine intelligemment la technologie de pointe de modélisation visuelle du langage (Vision Language Models) pour convertir intelligemment des documents PDF en contenu de haute qualité au format Markdown. L'outil prend en charge une variété de modèles de langage visuel de pointe, y compris OpenAI, LLama et Google Gemini, etc., peut extraire avec précision le texte et les tableaux dans le document, et maintenir la structure hiérarchique du document original, le style et l'indentation.Vision Parse ne prend pas seulement en charge le traitement PDF multi-pages, mais fournit également des options de déploiement de modèle local, de sorte que les utilisateurs peuvent être dans le même temps pour assurer la sécurité du document traitement hors ligne. La conception simple de l'API permet aux développeurs de réaliser des tâches complexes de conversion de documents avec seulement quelques lignes de code, ce qui améliore considérablement l'efficacité et la précision du traitement des documents.

Vision Parse：使用视觉语言模型将PDF文档智能转换为Markdown格式

Liste des fonctions

Extraction intelligente de contenu : utilisation de modèles de langage visuel avancés pour reconnaître et extraire avec précision le contenu des textes et des tableaux.
Intégrité du formatage : maintien de la structure hiérarchique complète, du style et du formatage de l'indentation du document.
Prise en charge de modèles multiples : compatible avec OpenAI, LLama, Gemini et d'autres fournisseurs de modèles de langage visuel.
Traitement des PDF multipages : la prise en charge des documents PDF multipages sera convertie en images codées en base64 pour le traitement.
Déploiement de modèles locaux : Ollama prend en charge le déploiement de modèles locaux pour la sécurité des documents et l'utilisation hors ligne.
Configuration personnalisée : Prise en charge des paramètres de traitement PDF personnalisés, tels que le DPI, l'espace couleur, etc.
API flexible : interface API Python simple et intuitive

Utiliser l'aide

1. préparation de l'installation

Exigences de base :

Python 3.9 ou supérieur
Pour utiliser le modèle local, vous devez installer Ollama.
La clé API appropriée est nécessaire pour utiliser OpenAI ou Google Gemini.

Étapes de l'installation :

Utilisez pip pour installer le paquet de base :

pip install vision-parse

Installez les dépendances supplémentaires si nécessaire :

Soutien à l'OpenAI :pip install 'vision-parse[openai]'
Soutien aux Gémeaux :pip install 'vision-parse[gemini]'

2. utilisation de base

Exemple de code :

from vision_parse import VisionParser
# 初始化解析器
parser = VisionParser(
model_name="llama3.2-vision:11b",  # 使用本地模型
temperature=0.4,
top_p=0.3,
extraction_complexity=False  # 设置为True获取更详细的提取结果
)
# 转换PDF文件
pdf_path = "your_document.pdf"
markdown_pages = parser.convert_pdf(pdf_path)
# 处理转换结果
for i, page_content in enumerate(markdown_pages):
print(f"\n--- 第 {i+1} 页 ---\n{page_content}")

3. configuration avancée

Configuration des pages PDF :

from vision_parse import VisionParser, PDFPageConfig
# 配置PDF处理设置
page_config = PDFPageConfig(
dpi=400,
color_space="RGB",
include_annotations=True,
preserve_transparency=False
)
# 使用自定义配置初始化解析器
parser = VisionParser(
model_name="llama3.2-vision:11b",
temperature=0.7,
top_p=0.4,
page_config=page_config
)

4. les modèles de soutien

Vision Parse prend en charge un large éventail de modèles de langage visuel courants :

Modèles OpenAI : gpt-4o, gpt-4o-mini
Modèles Google Gemini : gemini-1.5-flash, gemini-2.0-flash-exp, gemini-1.5-pro
Meta Llama et Llava (par l'intermédiaire d'Ollama) : llava:13b, llava:34b, llama3.2-vision:11b, llama3.2-vision:70b

5. les techniques d'utilisation

Choisir le bon modèle : opter pour un modèle local ou un service basé sur l'informatique dématérialisée en fonction de vos besoins
Réglage des paramètres : la créativité et la précision de la sortie sont réglées par les paramètres température et top_p.
Complexité de l'extraction : pour les documents complexes, il est recommandé de définir extraction_complexity=True
Déploiement local : la documentation sensible suggère d'utiliser Ollama pour le déploiement local du modèle.
Configuration PDF : en fonction des caractéristiques du document, réglage du DPI, de l'espace colorimétrique et d'autres paramètres.

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

Flux Gym : interface utilisateur simple pour l'entraînement FLUX LoRA avec une faible mémoire graphique

Dernières ressources sur l'IA # AI Aides à la génération d'images # AI Java Open Source Projecct

Il y a 10 mois

027.8K

OpenPilot : système de conduite autonome à code source ouvert, permettant de bricoler un ensemble de systèmes de conduite intelligents pour votre voiture.

Dernières ressources sur l'IA # AI Java Open Source Projecct

Il y a 7 mois

019.1K

dsRAG : un moteur de recherche pour les données non structurées et les requêtes complexes

Dernières ressources sur l'IA # AI Java Open Source Projecct # Recherche de connaissances et cadre RAG

Il y a 7 mois

017.1K

Hume AI：赋予AI情感识别能力|从声音和表情识别情感状态|生成具有情感状态的语音

Hume AI : Donner à l'IA les moyens de reconnaître les émotions | Reconnaître les états émotionnels à partir de sons et d'expressions | Générer des discours avec des états émotionnels

Dernières ressources sur l'IA # AI Open Services # Synthèse vocale AI

Il y a 12 mois

021.5K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

Vision Parse : Conversion intelligente de documents PDF au format Markdown à l'aide de modèles de langage visuel

Introduction générale

Liste des fonctions

Utiliser l'aide

1. préparation de l'installation

Exigences de base :

Étapes de l'installation :

2. utilisation de base

Exemple de code :

3. configuration avancée

Configuration des pages PDF :

4. les modèles de soutien

5. les techniques d'utilisation

InvSR : Projet open source de super-résolution d'images pour améliorer la qualité de la résolution d'images

Smolagents : projet open source pour le développement rapide d'intelligences IA et la construction légère d'intelligences

Articles connexes

Flux Gym : interface utilisateur simple pour l'entraînement FLUX LoRA avec une faible mémoire graphique

OpenPilot : système de conduite autonome à code source ouvert, permettant de bricoler un ensemble de systèmes de conduite intelligents pour votre voiture.

dsRAG : un moteur de recherche pour les données non structurées et les requêtes complexes

Hume AI : Donner à l'IA les moyens de reconnaître les émotions | Reconnaître les états émotionnels à partir de sons et d'expressions | Générer des discours avec des états émotionnels

Pas de commentaires

Dernières collections

Derniers articles

Vision Parse : Conversion intelligente de documents PDF au format Markdown à l'aide de modèles de langage visuel

Introduction générale

Liste des fonctions

Utiliser l'aide

1. préparation de l'installation

Exigences de base :

Étapes de l'installation :

2. utilisation de base

Exemple de code :

3. configuration avancée

Configuration des pages PDF :

4. les modèles de soutien

5. les techniques d'utilisation

InvSR : Projet open source de super-résolution d'images pour améliorer la qualité de la résolution d'images

Smolagents : projet open source pour le développement rapide d'intelligences IA et la construction légère d'intelligences

Articles connexes

Flux Gym : interface utilisateur simple pour l'entraînement FLUX LoRA avec une faible mémoire graphique

OpenPilot : système de conduite autonome à code source ouvert, permettant de bricoler un ensemble de systèmes de conduite intelligents pour votre voiture.

dsRAG : un moteur de recherche pour les données non structurées et les requêtes complexes

Hume AI : Donner à l'IA les moyens de reconnaître les émotions | Reconnaître les états émotionnels à partir de sons et d'expressions | Générer des discours avec des états émotionnels

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles