Vision Parse : Conversion intelligente de documents PDF au format Markdown à l'aide de modèles de langage visuel

堆友AI

Introduction générale

Vision Parse est un outil révolutionnaire de traitement de documents qui combine intelligemment la technologie de pointe de modélisation visuelle du langage (Vision Language Models) pour convertir intelligemment des documents PDF en contenu de haute qualité au format Markdown. L'outil prend en charge une variété de modèles de langage visuel de pointe, y compris OpenAI, LLama et Google Gemini, etc., peut extraire avec précision le texte et les tableaux dans le document, et maintenir la structure hiérarchique du document original, le style et l'indentation.Vision Parse ne prend pas seulement en charge le traitement PDF multi-pages, mais fournit également des options de déploiement de modèle local, de sorte que les utilisateurs peuvent être dans le même temps pour assurer la sécurité du document traitement hors ligne. La conception simple de l'API permet aux développeurs de réaliser des tâches complexes de conversion de documents avec seulement quelques lignes de code, ce qui améliore considérablement l'efficacité et la précision du traitement des documents.

Vision Parse:使用视觉语言模型将PDF文档智能转换为Markdown格式

 

Liste des fonctions

  • Extraction intelligente de contenu : utilisation de modèles de langage visuel avancés pour reconnaître et extraire avec précision le contenu des textes et des tableaux.
  • Intégrité du formatage : maintien de la structure hiérarchique complète, du style et du formatage de l'indentation du document.
  • Prise en charge de modèles multiples : compatible avec OpenAI, LLama, Gemini et d'autres fournisseurs de modèles de langage visuel.
  • Traitement des PDF multipages : la prise en charge des documents PDF multipages sera convertie en images codées en base64 pour le traitement.
  • Déploiement de modèles locaux : Ollama prend en charge le déploiement de modèles locaux pour la sécurité des documents et l'utilisation hors ligne.
  • Configuration personnalisée : Prise en charge des paramètres de traitement PDF personnalisés, tels que le DPI, l'espace couleur, etc.
  • API flexible : interface API Python simple et intuitive

 

Utiliser l'aide

1. préparation de l'installation

Exigences de base :

  • Python 3.9 ou supérieur
  • Pour utiliser le modèle local, vous devez installer Ollama.
  • La clé API appropriée est nécessaire pour utiliser OpenAI ou Google Gemini.

Étapes de l'installation :

  1. Utilisez pip pour installer le paquet de base :
pip install vision-parse
  1. Installez les dépendances supplémentaires si nécessaire :
  • Soutien à l'OpenAI :pip install 'vision-parse[openai]'
  • Soutien aux Gémeaux :pip install 'vision-parse[gemini]'

2. utilisation de base

Exemple de code :

from vision_parse import VisionParser
# 初始化解析器
parser = VisionParser(
model_name="llama3.2-vision:11b",  # 使用本地模型
temperature=0.4,
top_p=0.3,
extraction_complexity=False  # 设置为True获取更详细的提取结果
)
# 转换PDF文件
pdf_path = "your_document.pdf"
markdown_pages = parser.convert_pdf(pdf_path)
# 处理转换结果
for i, page_content in enumerate(markdown_pages):
print(f"\n--- 第 {i+1} 页 ---\n{page_content}")

3. configuration avancée

Configuration des pages PDF :

from vision_parse import VisionParser, PDFPageConfig
# 配置PDF处理设置
page_config = PDFPageConfig(
dpi=400,
color_space="RGB",
include_annotations=True,
preserve_transparency=False
)
# 使用自定义配置初始化解析器
parser = VisionParser(
model_name="llama3.2-vision:11b",
temperature=0.7,
top_p=0.4,
page_config=page_config
)

4. les modèles de soutien

Vision Parse prend en charge un large éventail de modèles de langage visuel courants :

  • Modèles OpenAI : gpt-4o, gpt-4o-mini
  • Modèles Google Gemini : gemini-1.5-flash, gemini-2.0-flash-exp, gemini-1.5-pro
  • Meta Llama et Llava (par l'intermédiaire d'Ollama) : llava:13b, llava:34b, llama3.2-vision:11b, llama3.2-vision:70b

5. les techniques d'utilisation

  • Choisir le bon modèle : opter pour un modèle local ou un service basé sur l'informatique dématérialisée en fonction de vos besoins
  • Réglage des paramètres : la créativité et la précision de la sortie sont réglées par les paramètres température et top_p.
  • Complexité de l'extraction : pour les documents complexes, il est recommandé de définir extraction_complexity=True
  • Déploiement local : la documentation sensible suggère d'utiliser Ollama pour le déploiement local du modèle.
  • Configuration PDF : en fonction des caractéristiques du document, réglage du DPI, de l'espace colorimétrique et d'autres paramètres.
© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...