综合介绍
Vision Parse是一个革命性的文档处理工具,它巧妙地结合了最先进的视觉语言模型(Vision Language Models)技术,能够将PDF文档智能转换为优质的Markdown格式内容。该工具支持多种顶级视觉语言模型,包括OpenAI、LLama和Google Gemini等,可以精确提取文档中的文本和表格,并保持原始文档的层级结构、样式和缩进。Vision Parse不仅支持多页PDF处理,还提供本地模型部署选项,让用户能够在确保文档安全的同时实现离线处理。其简单的API设计使得开发者只需几行代码就能实现复杂的文档转换任务,大大提高了文档处理的效率和准确性。
功能列表
- 智能内容提取:使用先进的视觉语言模型精确识别和提取文本及表格内容
- 格式完整保留:完整保持文档的层级结构、样式和缩进格式
- 多模型支持:兼容OpenAI、LLama、Gemini等多个视觉语言模型提供商
- PDF多页处理:支持将多页PDF文档转换为base64编码图像进行处理
- 本地模型部署:通过Ollama支持本地模型部署,保障文档安全性和离线使用
- 自定义配置:支持自定义PDF处理参数,如DPI、色彩空间等
- 灵活的API:提供简单直观的Python API接口
使用帮助
1. 安装准备
基本要求:
- Python 3.9或更高版本
- 如需使用本地模型,需安装Ollama
- 使用OpenAI或Google Gemini需要相应的API密钥
安装步骤:
- 使用pip安装基础包:
pip install vision-parse
- 根据需要安装额外依赖:
- OpenAI支持:
pip install 'vision-parse[openai]'
- Gemini支持:
pip install 'vision-parse[gemini]'
2. 基础使用方法
示例代码:
from vision_parse import VisionParser
# 初始化解析器
parser = VisionParser(
model_name="llama3.2-vision:11b", # 使用本地模型
temperature=0.4,
top_p=0.3,
extraction_complexity=False # 设置为True获取更详细的提取结果
)
# 转换PDF文件
pdf_path = "your_document.pdf"
markdown_pages = parser.convert_pdf(pdf_path)
# 处理转换结果
for i, page_content in enumerate(markdown_pages):
print(f"\n--- 第 {i+1} 页 ---\n{page_content}")
3. 高级配置
PDF页面配置:
from vision_parse import VisionParser, PDFPageConfig
# 配置PDF处理设置
page_config = PDFPageConfig(
dpi=400,
color_space="RGB",
include_annotations=True,
preserve_transparency=False
)
# 使用自定义配置初始化解析器
parser = VisionParser(
model_name="llama3.2-vision:11b",
temperature=0.7,
top_p=0.4,
page_config=page_config
)
4. 支持的模型
Vision Parse支持多种主流视觉语言模型:
- OpenAI模型:gpt-4o, gpt-4o-mini
- Google Gemini模型:gemini-1.5-flash, gemini-2.0-flash-exp, gemini-1.5-pro
- Meta Llama和LLava(通过Ollama):llava:13b, llava:34b, llama3.2-vision:11b, llama3.2-vision:70b
5. 使用技巧
- 选择合适的模型:根据需求选择本地模型或云端服务
- 调整参数:通过temperature和top_p参数调整输出结果的创造性和准确性
- 提取复杂度:对于复杂文档,建议设置extraction_complexity=True
- 本地部署:敏感文档建议使用Ollama进行本地模型部署
- PDF配置:根据文档特点调整DPI和色彩空间等参数