综合介绍
ViTLP(Visually Guided Generative Text-Layout Pre-training for Document Intelligence)是一个开源项目,旨在通过视觉引导的生成文本布局预训练模型提升文档智能处理能力。该项目由Veason-silverbullet团队开发,并在NAACL 2024会议上发表。ViTLP模型能够本地化和识别OCR文本,提供预训练的ViTLP-medium(380M)检查点,用户可以在Huggingface上访问。该项目的代码和模型权重可以在GitHub上获取,支持文档图像的OCR处理和文本布局生成。
功能列表
- OCR文本本地化和识别:ViTLP模型能够高效地进行OCR文本的本地化和识别。
- 预训练模型:提供ViTLP-medium(380M)预训练检查点,用户可以直接使用或进行微调。
- 文档图像处理:支持上传文档图像并进行OCR处理。
- 模型微调:提供微调工具,支持在OCR数据集和VQA数据集上进行后续训练。
- 文档合成工具:提供带有定位框元数据的文档合成工具。
使用帮助
安装流程
- 克隆ViTLP项目代码:
git clone https://github.com/Veason-silverbullet/ViTLP
cd ViTLP
- 安装依赖:
pip install -r requirements.txt
- 下载预训练检查点:
mkdir -p ckpts/ViTLP-medium
git clone https://huggingface.co/veason/ViTLP-medium ckpts/ViTLP-medium
使用流程
- OCR文本识别:
- 运行OCR脚本:
python ocr.py
- 上传文档图像,模型将自动进行OCR处理并输出结果。
- 模型微调:
- 参考
./finetuning
目录下的说明文件,进行OCR数据集和VQA数据集上的后续训练。 - 使用文档合成工具生成带有定位框元数据的合成文档,提升模型的训练效果。
- 参考
- 批量解码:
- 使用批量解码脚本:
bash
bash decode.sh
- 该脚本将批量处理文档图像并输出OCR结果。
- 使用批量解码脚本:
详细功能操作
- OCR文本本地化和识别:上传文档图像后,模型将自动检测并识别文本区域,输出文本内容和位置信息。
- 模型微调:用户可以根据自己的数据集需求,使用提供的微调工具对模型进行进一步训练,提升特定场景下的识别效果。
- 文档合成工具:通过合成工具生成带有定位框元数据的文档,帮助模型在训练过程中更好地理解文本布局和结构。