DeepSeek-OCR - DeepSeek开源的光学字符识别模型

40.4K 00

DeepSeek-OCR是什么

DeepSeek-OCR 是 DeepSeek 团队开源的先进光学字符识别（OCR）模型，通过“上下文光学压缩”技术，将文本转换为图像，利用视觉 token 进行压缩和解码，实现高效长文本处理。其技术特点包括高压缩比（10 倍压缩下精度可达 97%）、视觉 - 语言联合理解、多结构和多格式支持（支持 JPG、PNG、PDF 等格式及多语种识别）、端到端 VLM 架构等。应用场景广泛，可处理长文本、复杂文档，支持多语言，支持本地化部署。性能优势显著，高效率（单张 A100 - 40G 显卡支持每日 20 万页以上训练数据生成）、低延迟（移动端设备可实现每秒 15 帧的实时识别，延迟低于 100 毫秒）、高适应性（复杂场景下识别准确率高达 98.7%）。开源代码与模型权重已发布，方便开发者调用。

DeepSeek-OCR的功能特色

上下文光学压缩：将文本转换为图像，通过视觉token进行压缩和解码，实现高效长文本处理，10倍压缩下精度可达97%。
视觉-语言联合理解：结合图像中的视觉信息与语言模型理解能力，精准把握文字的语义和版面结构。
多结构、多格式支持：支持多种图片格式（JPG、PNG、PDF）以及多语种识别，还能较好应对手写体、混排文本、图表与文本混合排版的文档。
高压缩比与高精度：在10倍压缩下，OCR精度可达97%；即使压缩率提升至20倍，模型准确率仍能维持在60%左右。
端到端VLM架构：采用DeepEncoder编码器和DeepSeek3B-MoE解码器，编码器负责提取图像特征、token化以及压缩视觉表示，解码器基于图像token和提示生成所需结果。
应用场景广泛：可将数千字的文档“拍”成一张图，用不到十分之一的成本实现97%的精准还原，为大语言模型的长上下文问题提供高效解决方案；能够识别表格或财务报表中的文字、图表和示意图中的信息，甚至能够读出化学分子式、数学公式和几何图形；支持包括中文、英文在内的100多种语言；支持本地部署，可避免将敏感文档发送到第三方云服务。
性能优势显著：单张A100-40G显卡，可支持每日20万页以上的大语言模型/视觉语言模型训练数据生成；在移动端设备上可实现每秒15帧的实时识别，延迟低于100毫秒；通过多尺度动态特征融合模块与上下文感知解码器，模型在复杂场景下的识别准确率飙升至98.7%，较行业平均水平提升6.4个百分点。

DeepSeek-OCR的核心优势

高效的上下文光学压缩技术：通过将文本转换为图像并利用视觉 token 进行压缩和解码，实现高压缩比的同时保持高精度，10 倍压缩下精度可达 97%，20 倍压缩时准确率仍维持在 60% 左右，有效解决长文本处理难题。
视觉与语言的深度融合：结合图像中的视觉信息（如位置、版面、图形、表格边界）和语言模型的理解能力，不仅识别文字内容，能精准把握语义和版面结构，提升对复杂文档的处理能力。
广泛的格式与语言支持：支持多种图片格式（JPG、PNG、PDF）以及 100 多种语言，还能较好地应对手写体、混排文本、图表与文本混合排版的文档，适用场景广泛。
强大的性能表现：单张 A100-40G 显卡可支持每日 20 万页以上的大语言模型训练数据生成；移动端设备上可实现每秒 15 帧的实时识别，延迟低于 100 毫秒；复杂场景下识别准确率高达 98.7%，显著优于行业平均水平。
灵活的部署方式：支持本地化部署，避免将敏感文档发送到第三方云服务，保障数据安全，同时满足不同用户对部署环境的需求。

DeepSeek-OCR官网是什么

GitHub仓库：https://github.com/deepseek-ai/DeepSeek-OCR
HuggingFace模型库：https://huggingface.co/deepseek-ai/DeepSeek-OCR
技术论文：https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf