Vision Parse：使用视觉语言模型将PDF文档智能转换为Markdown格式

56.1K 00

综合介绍

Vision Parse是一个革命性的文档处理工具，它巧妙地结合了最先进的视觉语言模型(Vision Language Models)技术，能够将PDF文档智能转换为优质的Markdown格式内容。该工具支持多种顶级视觉语言模型，包括OpenAI、LLama和Google Gemini等，可以精确提取文档中的文本和表格，并保持原始文档的层级结构、样式和缩进。Vision Parse不仅支持多页PDF处理，还提供本地模型部署选项，让用户能够在确保文档安全的同时实现离线处理。其简单的API设计使得开发者只需几行代码就能实现复杂的文档转换任务，大大提高了文档处理的效率和准确性。

Vision Parse：使用视觉语言模型将PDF文档智能转换为Markdown格式

功能列表

智能内容提取：使用先进的视觉语言模型精确识别和提取文本及表格内容
格式完整保留：完整保持文档的层级结构、样式和缩进格式
多模型支持：兼容OpenAI、LLama、Gemini等多个视觉语言模型提供商
PDF多页处理：支持将多页PDF文档转换为base64编码图像进行处理
本地模型部署：通过Ollama支持本地模型部署，保障文档安全性和离线使用
自定义配置：支持自定义PDF处理参数，如DPI、色彩空间等
灵活的API：提供简单直观的Python API接口

使用帮助

1. 安装准备

基本要求：

Python 3.9或更高版本
如需使用本地模型，需安装Ollama
使用OpenAI或Google Gemini需要相应的API密钥

安装步骤：

使用pip安装基础包：

pip install vision-parse

根据需要安装额外依赖：

OpenAI支持：pip install 'vision-parse[openai]'
Gemini支持：pip install 'vision-parse[gemini]'

2. 基础使用方法

示例代码：

from vision_parse import VisionParser
# 初始化解析器
parser = VisionParser(
model_name="llama3.2-vision:11b",  # 使用本地模型
temperature=0.4,
top_p=0.3,
extraction_complexity=False  # 设置为True获取更详细的提取结果
)
# 转换PDF文件
pdf_path = "your_document.pdf"
markdown_pages = parser.convert_pdf(pdf_path)
# 处理转换结果
for i, page_content in enumerate(markdown_pages):
print(f"\n--- 第 {i+1} 页 ---\n{page_content}")

3. 高级配置

PDF页面配置：

from vision_parse import VisionParser, PDFPageConfig
# 配置PDF处理设置
page_config = PDFPageConfig(
dpi=400,
color_space="RGB",
include_annotations=True,
preserve_transparency=False
)
# 使用自定义配置初始化解析器
parser = VisionParser(
model_name="llama3.2-vision:11b",
temperature=0.7,
top_p=0.4,
page_config=page_config
)

4. 支持的模型

Vision Parse支持多种主流视觉语言模型：

OpenAI模型：gpt-4o, gpt-4o-mini
Google Gemini模型：gemini-1.5-flash, gemini-2.0-flash-exp, gemini-1.5-pro
Meta Llama和LLava（通过Ollama）：llava:13b, llava:34b, llama3.2-vision:11b, llama3.2-vision:70b