AI个人学习
和实操指南

Surya:专业多语言文档OCR工具,开源本地部署

综合介绍

Surya是一个开源的多语言文档OCR工具包,支持90多种语言的文本识别。它不仅能够进行逐行文本检测,还能进行布局分析、阅读顺序检测和表格识别。Surya的性能与云服务相媲美,适用于各种类型的文档,包括PDF、图像、Word文档和PPT等。该工具包旨在为用户提供全面的文档解析解决方案。

托管API:https://www.datalab.to/

适用于 PDF、图像、Word 文档和 PowerPoint

Surya:专业多语言文档OCR工具-1


 

功能列表

  • OCR:支持90多种语言的文本识别
  • 逐行文本检测:自动识别文档中每一行文字的位置
  • 布局分析:检测文档中的表格、图像、标题等元素
  • 阅读顺序检测:识别文档中的阅读顺序
  • 表格识别:检测表格中的行和列

 

使用帮助

安装流程

  1. 确保已安装Python 3.9+和PyTorch。
  2. 如果不是使用Mac或GPU机器,可能需要先安装CPU版本的torch。
  3. 使用以下命令安装Surya:
    pip install surya-ocr
    
  4. 第一次运行Surya时,模型权重会自动下载。

使用流程

  1. 检查并配置surya/settings.py中的设置,可以通过环境变量覆盖任何设置。
  2. Surya会自动检测torch设备,但可以手动覆盖。例如:
    TORCH_DEVICE=cuda
    
  3. 使用以下命令运行OCR应用:
    python run_ocr_app.py
    
  4. 处理文档时,可以选择不同的功能模块,如文本检测、布局分析等。

功能操作流程

  1. OCR功能
    • 加载文档(PDF、图像等)。
    • 选择语言(支持90多种语言)。
    • 运行OCR识别,提取文本内容。
  2. 逐行文本检测
    • 加载文档。
    • 运行逐行文本检测,获取每一行文字的位置。
    • 导出检测结果。
  3. 布局分析
    • 加载文档。
    • 运行布局分析,检测文档中的表格、图像、标题等元素。
    • 导出分析结果。
  4. 阅读顺序检测
    • 加载文档。
    • 运行阅读顺序检测,识别文档中的阅读顺序。
    • 导出检测结果。
  5. 表格识别
    • 加载文档。
    • 运行表格识别,检测表格中的行和列。
    • 导出识别结果。

Surya提供了丰富的文档解析功能,用户可以根据需求选择不同的功能模块进行操作。详细的操作流程和设置说明可以参考官方文档和示例代码。

未经允许不得转载:首席AI分享圈 » Surya:专业多语言文档OCR工具,开源本地部署

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文