AI个人学习
和实操指南

GOT-OCR2.0:基于 QWen2 0.5B 端到端的多模态OCR模型

综合介绍

GOT-OCR2.0是一个阶跃星辰联合推出de 开源光学字符识别(OCR)模型,旨在通过一个统一的端到端模型推动OCR技术向OCR-2.0迈进。该模型支持多种OCR任务,包括普通文本识别、格式化文本识别、细粒度OCR、多裁剪OCR和多页OCR。GOT-OCR2.0的设计目标是提供一个通用且高效的解决方案,适用于各种复杂的OCR应用场景。

基于 QWen2 0.5 B 模型。号称 OCR 2.0,580M 参数的端到端 OCR 模型,拿到了 BLEU 0.972 分数。在线体验地址:https://huggingface.co/spaces/ucaslcl/GOT_online


 

GOT-OCR2.0:基于 QWen2 0.5B 端到端的多模态OCR模型-1

 

GOT-OCR2.0:基于 QWen2 0.5B 端到端的多模态OCR模型-1

 

 

功能列表

  • 普通文本识别:识别图片中的普通文本内容。
  • 格式化文本识别:识别并保留文本的格式信息,如表格、段落等。
  • 细粒度OCR:识别图片中的细小文本和复杂背景下的文本。
  • 多裁剪OCR:支持对图片进行多次裁剪并识别每个裁剪区域的文本。
  • 多页OCR:支持对多页文档进行OCR处理。

 

 

使用帮助

安装流程

  1. 克隆项目代码:
    git clone https://github.com/Ucas-HaoranWei/GOT-OCR2.0.git
    cd GOT-OCR2.0
    
  2. 创建并激活虚拟环境:
    conda create -n got python=3.10 -y
    conda activate got
    
  3. 安装项目依赖:
    pip install -e .
    
  4. 安装Flash-Attention:
    pip install ninja
    pip install flash-attn --no-build-isolation
    

获取GOT模型权重

使用流程

  1. 准备输入数据:将需要进行OCR处理的图片或文档放置在指定的输入目录中。
  2. 运行OCR模型:
    python3 GOT/demo/run_ocr_2.0.py --model-name /GOT_weights/ --image-file /an/image/file.png --type ocr
    
  3. 查看输出结果:OCR处理后的文本将保存在指定的输出目录中,用户可以根据需要进行进一步处理。

功能操作详解

  • 普通文本识别:将图片中的普通文本内容识别并输出为纯文本文件,适用于简单的文本提取任务。
  • 格式化文本识别:在识别文本的同时保留其格式信息,如表格、段落等,适用于需要保留文档原始格式的场景。
  • 细粒度OCR:针对复杂背景下的细小文本进行识别,适用于需要高精度文本提取的场景。
  • 多裁剪OCR:对图片进行多次裁剪并识别每个裁剪区域的文本,适用于需要对图片进行多区域识别的场景。
  • 多页OCR:支持对多页文档进行OCR处理,适用于处理长文档或多页PDF文件的场景。

通过上述步骤,用户可以轻松安装和使用GOT-OCR2.0模型进行各种OCR任务。该模型提供了丰富的功能模块,能够满足不同场景下的OCR需求。

未经允许不得转载:首席AI分享圈 » GOT-OCR2.0:基于 QWen2 0.5B 端到端的多模态OCR模型

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文