ViTLP：排版复杂PDF文档提取结构化数据，视觉引导生成文本布局预训练模型

53.3K 00

综合介绍

ViTLP（Visually Guided Generative Text-Layout Pre-training for Document Intelligence）是一个开源项目，旨在通过视觉引导的生成文本布局预训练模型提升文档智能处理能力。该项目由Veason-silverbullet团队开发，并在NAACL 2024会议上发表。ViTLP模型能够本地化和识别OCR文本，提供预训练的ViTLP-medium（380M）检查点，用户可以在Huggingface上访问。该项目的代码和模型权重可以在GitHub上获取，支持文档图像的OCR处理和文本布局生成。

功能列表

OCR文本本地化和识别：ViTLP模型能够高效地进行OCR文本的本地化和识别。
预训练模型：提供ViTLP-medium（380M）预训练检查点，用户可以直接使用或进行微调。
文档图像处理：支持上传文档图像并进行OCR处理。
模型微调：提供微调工具，支持在OCR数据集和VQA数据集上进行后续训练。
文档合成工具：提供带有定位框元数据的文档合成工具。

使用帮助

安装流程

克隆ViTLP项目代码：

   git clone https://github.com/Veason-silverbullet/ViTLP
cd ViTLP

安装依赖：

   pip install -r requirements.txt

下载预训练检查点：

   mkdir -p ckpts/ViTLP-medium
git clone https://huggingface.co/veason/ViTLP-medium ckpts/ViTLP-medium

使用流程

OCR文本识别：
- 运行OCR脚本：
```
 python ocr.py
```
- 上传文档图像，模型将自动进行OCR处理并输出结果。
模型微调：
- 参考./finetuning目录下的说明文件，进行OCR数据集和VQA数据集上的后续训练。
- 使用文档合成工具生成带有定位框元数据的合成文档，提升模型的训练效果。
批量解码：
- 使用批量解码脚本： bash bash decode.sh
- 该脚本将批量处理文档图像并输出OCR结果。