AI个人学习
和实操指南
阿里绘蛙

视觉语言模型高效 PDF 文本提取利器——olmOCR

在人工智能科技领域,语言模型 (Language Models, LMs) 已经成为驱动创新的核心力量。从预训练到实际应用,语言模型都依赖于纯文本数据进行运作。无论是进行万亿 tokens 级别的训练,还是支持数据密集型的人工智能应用,文本数据的质量都至关重要。低质量的文本数据不仅可能导致训练过程不稳定,模型性能下降,还会在用户请求时产生不尽如人意的输出结果。

然而,并非所有语言模型所需的数据都以易于解析的格式存在,例如网页。事实上,在许多领域,有价值的信息都存储在电子文档文件中,特别是 PDF 格式。PDF 格式在数据处理方面带来了独特的挑战,因为它的设计初衷是为了在固定尺寸的页面上呈现内容,而非保留文本的逻辑结构。以 PDF 为例,这种格式将文本存储为一系列字符编码,并记录每个字符在页面上的位置和格式信息。虽然这种存储方式效率很高,但却使得从中恢复诸如标题、段落、表格和公式等文本单元,并按照正确的阅读顺序排列变得异常困难。


视觉语言模型高效 PDF 文本提取利器——olmOCR-1

为了更好地处理电子文档,我们隆重推出 olmOCR,这是一款高性能工具包,旨在将 PDF 和文档图像转换为清晰、结构化的纯文本。olmOCR 的独特之处在于以下几点:

卓越的性能

为了确保 olmOCR 能够准确地从各种文档中提取文本,开发团队使用了来自不同来源的 25 万个 PDF 页面进行了模型微调。这些 PDF 文档来源广泛,既包括原生数字文档,也包括公共领域书籍的扫描副本。这种多样化的数据集保证了 olmOCR 在处理各种文档时都能保持出色的性能。

极具成本效益

olmOCR 工具包处理一百万页 PDF 文档的成本约为 190 美元,这大约是使用 GPT-4o API 批量处理相同数量页面的成本的 1/32。 显著降低了文档处理的经济门槛。

Markdown 格式输出

olmOCR 以 Markdown 格式输出文本,这种格式易于解析和处理。它能够处理公式、表格甚至手写内容,并能确保即使是面对最复杂的、多栏文档布局,也能按照正确的阅读顺序输出。

功能完备,开箱即用

olmOCR 是一个经过全面优化的pipeline (流程管线),可以与 SGLang 和 vLLM 推理引擎协同工作。它能够从单 GPU 扩展到数百个 GPU,并内置了启发式算法来处理常见的解析失败和元数据错误。

完全开源

olmOCR 基于 Qwen2-VL-7B-Instruct 构建。开发团队开源了工具包的所有组件,包括 模型权重、微调数据集、以及 训练和推理代码。

想了解 olmOCR 与其他领先文档提取工具的 对比 结果,以及关于 olmOCR 构建过程 的更多信息,请点击链接查看。如果您已经准备好试用 olmOCR,请访问 GitHub 仓库,在您的项目中开始使用 olmOCR 吧!

 

交互式工具对比

通过对比示例文档,您可以直观地了解 olmOCR 相较于其他领先文档提取工具的性能表现。使用下方的标签页,您可以查看不同工具的输出结果,并深入了解它们在处理质量上的关键差异。

视觉语言模型高效 PDF 文本提取利器——olmOCR-1

 

视觉语言模型高效 PDF 文本提取利器——olmOCR-1

 

视觉语言模型高效 PDF 文本提取利器——olmOCR-1

 

olmOCR 的构建之路

传统的 OCR 技术在处理布局复杂的 PDF 文档时,往往面临诸多挑战。为了获得高质量的数据来训练 olmOCR,开发团队创新性地研发了一种名为 文档锚定 (document anchoring) 的技术。该方法充分利用 PDF 文件中已有的文本和元数据,来显著提升文本提取的质量。

视觉语言模型高效 PDF 文本提取利器——olmOCR-2

图 1: 展示了文档锚定技术在一个典型页面上的工作原理。相关的图像位置和文本块被提取出来,连接在一起,并插入到模型 prompt (提示) 中。当向 VLM (视觉语言模型) запросить (请求) 文档的纯文本版本时,锚定的文本将与页面的栅格化图像结合使用。

借助文档锚定技术,开发团队使用 GPT-4o 标注了 25 万个页面。数据集的来源十分广泛,包括从网络上抓取的公开 PDF 文档,以及互联网档案馆扫描的公共领域书籍。数据集类型多样,其中 60% 为学术论文,12% 为宣传册,11% 为法律文件,6% 为图表,5% 为幻灯片,以及 4% 为其他文档类型。

在模型训练方面,olmOCR 团队对 Qwen2-VL-7B-Instruct checkpoint (检查点) 进行了微调。为了实现大规模批量处理,并优化推理 pipeline (流程管线),他们使用了 SGLang。最终,olmOCR 仅需花费 190 美元即可转换一百万页 PDF 文档,成本仅为 GPT-4o API 的 1/32。实验结果表明,与其它流行的 OCR 工具相比,olmOCR 不仅显著降低了成本,而且在人工评估中也展现出更卓越的性能。

视觉语言模型高效 PDF 文本提取利器——olmOCR-3

图 2: olmOCR 与其他流行工具的 ELO 排名箱线图。

为了全面评估 olmOCR 的性能,研究团队将其输出结果与其他流行的 PDF 提取工具进行了对比,这些工具包括:Marker、MinerU 和 GOT-OCR 2.0。他们邀请了 11 位研究人员进行 pairwise judgments (成对判断)。在 2017 份 PDF 文档中,收集了 452 组有意义的对比结果,并通过计算 ELO 评分来量化性能。结果显示,olmOCR 的 ELO 评分超过 1800 分,显著优于所有竞争对手。在与其他工具的直接对比中,olmOCR 在 61.3% 对 Marker 的比较中更受青睐,在 58.6% 对 GOT-OCR 的比较中更受欢迎,在对 MinerU 的比较中,这一比例更是高达 71.4%,充分证明了 olmOCR 在生成清晰、结构良好的文本方面的卓越能力。

您可以在 技术报告 中查看更多细节信息以及其他评估结果。

 

如何使用 olmOCR

olmOCR 的首个版本包括一个 demo (演示)、模型权重、微调数据集、一份简要的技术报告,以及最重要的,一个高效的推理 pipeline (流程管线)。

访问 GitHub 仓库 安装 olmOCR 并查阅相关文档。之后,在一台配备 GPU 的机器上,只需简单运行以下命令:

python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/horribleocr.pdf

开发团队希望在不久的将来发布更多的定量 benchmark (基准测试),以助力开发更优秀的 PDF 提取模型,并更有效地评估它们的性能。

CDN1
未经允许不得转载:首席AI分享圈 » 视觉语言模型高效 PDF 文本提取利器——olmOCR

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文