视觉语言模型高效 PDF 文本提取利器——olmOCR

23.6K 00

在人工智能科技领域，语言模型 (Language Models, LMs) 已经成为驱动创新的核心力量。从预训练到实际应用，语言模型都依赖于纯文本数据进行运作。无论是进行万亿 tokens 级别的训练，还是支持数据密集型的人工智能应用，文本数据的质量都至关重要。低质量的文本数据不仅可能导致训练过程不稳定，模型性能下降，还会在用户请求时产生不尽如人意的输出结果。

然而，并非所有语言模型所需的数据都以易于解析的格式存在，例如网页。事实上，在许多领域，有价值的信息都存储在电子文档文件中，特别是 PDF 格式。PDF 格式在数据处理方面带来了独特的挑战，因为它的设计初衷是为了在固定尺寸的页面上呈现内容，而非保留文本的逻辑结构。以 PDF 为例，这种格式将文本存储为一系列字符编码，并记录每个字符在页面上的位置和格式信息。虽然这种存储方式效率很高，但却使得从中恢复诸如标题、段落、表格和公式等文本单元，并按照正确的阅读顺序排列变得异常困难。

为了更好地处理电子文档，我们隆重推出 olmOCR，这是一款高性能工具包，旨在将 PDF 和文档图像转换为清晰、结构化的纯文本。olmOCR 的独特之处在于以下几点：

卓越的性能

为了确保 olmOCR 能够准确地从各种文档中提取文本，开发团队使用了来自不同来源的 25 万个 PDF 页面进行了模型微调。这些 PDF 文档来源广泛，既包括原生数字文档，也包括公共领域书籍的扫描副本。这种多样化的数据集保证了 olmOCR 在处理各种文档时都能保持出色的性能。

极具成本效益

olmOCR 工具包处理一百万页 PDF 文档的成本约为 190 美元，这大约是使用 GPT-4o API 批量处理相同数量页面的成本的 1/32。显著降低了文档处理的经济门槛。

Markdown 格式输出

olmOCR 以 Markdown 格式输出文本，这种格式易于解析和处理。它能够处理公式、表格甚至手写内容，并能确保即使是面对最复杂的、多栏文档布局，也能按照正确的阅读顺序输出。

功能完备，开箱即用

olmOCR 是一个经过全面优化的pipeline (流程管线)，可以与 SGLang 和 vLLM 推理引擎协同工作。它能够从单 GPU 扩展到数百个 GPU，并内置了启发式算法来处理常见的解析失败和元数据错误。

完全开源

olmOCR 基于 Qwen2-VL-7B-Instruct 构建。开发团队开源了工具包的所有组件，包括模型权重、微调数据集、以及训练和推理代码。

想了解 olmOCR 与其他领先文档提取工具的对比结果，以及关于 olmOCR 构建过程的更多信息，请点击链接查看。如果您已经准备好试用 olmOCR，请访问 GitHub 仓库，在您的项目中开始使用 olmOCR 吧！

交互式工具对比

通过对比示例文档，您可以直观地了解 olmOCR 相较于其他领先文档提取工具的性能表现。使用下方的标签页，您可以查看不同工具的输出结果，并深入了解它们在处理质量上的关键差异。

olmOCR 的构建之路

传统的 OCR 技术在处理布局复杂的 PDF 文档时，往往面临诸多挑战。为了获得高质量的数据来训练 olmOCR，开发团队创新性地研发了一种名为 文档锚定 (document anchoring) 的技术。该方法充分利用 PDF 文件中已有的文本和元数据，来显著提升文本提取的质量。

图 1: 展示了文档锚定技术在一个典型页面上的工作原理。相关的图像位置和文本块被提取出来，连接在一起，并插入到模型 prompt (提示) 中。当向 VLM (视觉语言模型) запросить (请求) 文档的纯文本版本时，锚定的文本将与页面的栅格化图像结合使用。

借助文档锚定技术，开发团队使用 GPT-4o 标注了 25 万个页面。数据集的来源十分广泛，包括从网络上抓取的公开 PDF 文档，以及互联网档案馆扫描的公共领域书籍。数据集类型多样，其中 60% 为学术论文，12% 为宣传册，11% 为法律文件，6% 为图表，5% 为幻灯片，以及 4% 为其他文档类型。

在模型训练方面，olmOCR 团队对 Qwen2-VL-7B-Instruct checkpoint (检查点) 进行了微调。为了实现大规模批量处理，并优化推理 pipeline (流程管线)，他们使用了 SGLang。最终，olmOCR 仅需花费 190 美元即可转换一百万页 PDF 文档，成本仅为 GPT-4o API 的 1/32。实验结果表明，与其它流行的 OCR 工具相比，olmOCR 不仅显著降低了成本，而且在人工评估中也展现出更卓越的性能。

图 2: olmOCR 与其他流行工具的 ELO 排名箱线图。

为了全面评估 olmOCR 的性能，研究团队将其输出结果与其他流行的 PDF 提取工具进行了对比，这些工具包括：Marker、MinerU 和 GOT-OCR 2.0。他们邀请了 11 位研究人员进行 pairwise judgments (成对判断)。在 2017 份 PDF 文档中，收集了 452 组有意义的对比结果，并通过计算 ELO 评分来量化性能。结果显示，olmOCR 的 ELO 评分超过 1800 分，显著优于所有竞争对手。在与其他工具的直接对比中，olmOCR 在 61.3% 对 Marker 的比较中更受青睐，在 58.6% 对 GOT-OCR 的比较中更受欢迎，在对 MinerU 的比较中，这一比例更是高达 71.4%，充分证明了 olmOCR 在生成清晰、结构良好的文本方面的卓越能力。

您可以在技术报告中查看更多细节信息以及其他评估结果。

如何使用 olmOCR

olmOCR 的首个版本包括一个 demo (演示)、模型权重、微调数据集、一份简要的技术报告，以及最重要的，一个高效的推理 pipeline (流程管线)。

访问 GitHub 仓库安装 olmOCR 并查阅相关文档。之后，在一台配备 GPU 的机器上，只需简单运行以下命令：

python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/horribleocr.pdf

开发团队希望在不久的将来发布更多的定量 benchmark (基准测试)，以助力开发更优秀的 PDF 提取模型，并更有效地评估它们的性能。

AI新闻

文章版权归 AI分享圈所有，未经允许请勿转载。

NotebookLM 引入网络资源发现功能，简化信息收集流程

AI新闻

8个月前

028.7K

Claude创新推出API长文本缓存功能，大幅提升处理效率与降低成本

AI新闻

1年前

026.1K

Windsurf Next 发布，抢先体验 Windsurf 最新功能！

AI新闻

10个月前

035.9K

人人都能做数据分析了！Google Colab 推出 AI 神器 Data Science Agent

AI新闻

10个月前

024.8K

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

视觉语言模型高效 PDF 文本提取利器——olmOCR

卓越的性能

极具成本效益

Markdown 格式输出

功能完备，开箱即用

完全开源

交互式工具对比

olmOCR 的构建之路