AI个人学习
和实操指南

ViTLP:排版复杂PDF文档提取结构化数据,视觉引导生成文本布局预训练模型

综合介绍

ViTLP(Visually Guided Generative Text-Layout Pre-training for Document Intelligence)是一个开源项目,旨在通过视觉引导的生成文本布局预训练模型提升文档智能处理能力。该项目由Veason-silverbullet团队开发,并在NAACL 2024会议上发表。ViTLP模型能够本地化和识别OCR文本,提供预训练的ViTLP-medium(380M)检查点,用户可以在Huggingface上访问。该项目的代码和模型权重可以在GitHub上获取,支持文档图像的OCR处理和文本布局生成。

ViTLP:OCR识别PDF文档提取结构化数据,ViTLP是一款开源的视觉引导生成文本布局预训练模型-1


 

功能列表

  • OCR文本本地化和识别:ViTLP模型能够高效地进行OCR文本的本地化和识别。
  • 预训练模型:提供ViTLP-medium(380M)预训练检查点,用户可以直接使用或进行微调。
  • 文档图像处理:支持上传文档图像并进行OCR处理。
  • 模型微调:提供微调工具,支持在OCR数据集和VQA数据集上进行后续训练。
  • 文档合成工具:提供带有定位框元数据的文档合成工具。

 

使用帮助

安装流程

  1. 克隆ViTLP项目代码:
   git clone https://github.com/Veason-silverbullet/ViTLP
cd ViTLP
  1. 安装依赖:
   pip install -r requirements.txt
  1. 下载预训练检查点:
   mkdir -p ckpts/ViTLP-medium
git clone https://huggingface.co/veason/ViTLP-medium ckpts/ViTLP-medium

使用流程

  1. OCR文本识别
    • 运行OCR脚本:
     python ocr.py
    
    • 上传文档图像,模型将自动进行OCR处理并输出结果。
  2. 模型微调
    • 参考./finetuning目录下的说明文件,进行OCR数据集和VQA数据集上的后续训练。
    • 使用文档合成工具生成带有定位框元数据的合成文档,提升模型的训练效果。
  3. 批量解码
    • 使用批量解码脚本: bash
      bash decode.sh
    • 该脚本将批量处理文档图像并输出OCR结果。

详细功能操作

  • OCR文本本地化和识别:上传文档图像后,模型将自动检测并识别文本区域,输出文本内容和位置信息。
  • 模型微调:用户可以根据自己的数据集需求,使用提供的微调工具对模型进行进一步训练,提升特定场景下的识别效果。
  • 文档合成工具:通过合成工具生成带有定位框元数据的文档,帮助模型在训练过程中更好地理解文本布局和结构。
未经允许不得转载:首席AI分享圈 » ViTLP:排版复杂PDF文档提取结构化数据,视觉引导生成文本布局预训练模型

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文