FireRed-OCR - 小红书团队开源的端到端文档解析模型

Latest AI Resources3wks agorelease AI Sharing Circle

15.1K 00

FireRed-OCR是什么

FireRed-OCR 是小红书 Super Intelligence 团队开源的端到端文档解析模型，基于 Qwen3-VL-2B 架构打造，仅用 2B 参数就在 OmniDocBench v1.5 基准测试中斩获 92.94% 综合得分，登顶端到端方案榜首。模型通过三阶段渐进训练策略——多任务预对齐、专项 SFT 微调和格式约束 GRPO 强化学习——有效解决了通用视觉语言模型的"结构幻觉"问题，在表格结构完整性（90.31%）、公式语法合法性（91.71%）和阅读顺序准确性（95.9%）等关键指标上表现卓越。项目采用 Apache 2.0 协议完全开源，支持将 PDF、扫描件、学术论文等复杂文档精准转换为标准 Markdown 格式，为 RAG 系统、知识库建设和企业文档数字化提供了轻量化、高性能的解决方案。

FireRed-OCR的功能特色

端到端文档解析：直接输入 PDF 或图片，一键输出标准 Markdown 格式，无需多模块拼接。
精准表格重构：表格结构完整性得分 90.31%，自动识别复杂行列对齐与合并单元格。
公式识别与 LaTeX 转换：公式语法合法性得分 91.71%，自动修正非法符号，完美还原数学表达式。
阅读顺序智能还原：多栏排版场景下阅读顺序准确率达 95.9%，确保内容逻辑连贯。
跨语种 OCR 支持：覆盖中英等多语言文档识别，满足国际化需求。
轻量化高性能：基于 2B 参数 Qwen3-VL-2B 架构，性能超越 DeepSeek-OCR 2 等超大模型。
格式自纠错机制：通过 GRPO 强化学习从公式语法、表格闭合、层级结构、文本准确性四维度自我修正。
开源可商用：Apache 2.0 协议，代码与权重完全开放，支持二次开发与企业集成。

FireRed-OCR的核心优势

SOTA 级性能表现：OmniDocBench v1.5 端到端方案综合得分 92.94%，排名第一，超越 DeepSeek-OCR 2（91.09%）、OCRVerse 及 Gemini-3.0 Pro 等超大模型。
极致轻量化架构：仅 2B 参数，基于 Qwen3-VL-2B 打造，部署成本低，推理速度快，适合边缘端和云端多种场景。
解决结构幻觉难题：针对通用视觉语言模型常见的表格错位、公式乱码、阅读顺序混乱等问题专项优化，输出稳定可靠。
三阶段渐进训练：多任务预对齐建立像素级空间感知，专项 SFT 强化结构表达，格式约束 GRPO 实现自我纠错，层层递进提升精度。
几何+语义数据引擎：通过几何聚类识别版式重叠与稀缺类型，多维 Tag 体系分层均衡采样，数据质量与多样性双保障。
Open Source Ecology Improvement：GitHub、HuggingFace、ModelScope 全平台托管，提供在线 Demo 即开即用，Apache 2.0 协议无商业限制。
专业化场景适配：在金融报表、学术论文、法律合同、医疗病历等复杂版式场景下表现稳定，满足企业级文档数字化需求。