10月20日上午,DeepSeek-AI 团队发布最新研究成果《DeepSeek-OCR:Contexts Optical Compression》技术论文,提出了一种利用视觉模态压缩长文本上下文的全新方法。Hugging Face 平台信息显示,这一创新模型的参数量为 30亿。

根据技术文档介绍,此次开源的 DeepSeek-OCR 系统由两大核心模块构成:专为视觉编码设计的 DeepEncoder 与基于混合专家架构的解码器 DeepSeek3B-MoE-A570M。其中,DeepEncoder 针对高分辨率输入场景进行了专门优化,既能有效降低计算复杂度,又能实现极高的压缩比率,从而将视觉 token 数量控制在可控范围内。实验数据表明,当文本 token 数量不超过视觉 token 10倍时,模型的 OCR 识别准确率可达到惊人的 97%;即便将压缩比提升至 20倍,其准确率依然保持在 60% 左右。这一表现充分证明了该方法在历史文档长上下文压缩与大语言模型记忆机制研究领域的巨大潜力。DeepSeek-OCR 在实用性与部署效率方面展现出显著优势。
在权威评测基准 OmniDocBench 的测试中,DeepSeek-OCR 仅使用 100 个视觉 token 就超越了 GOT-OCR2.0(每页需 256 个 token)的表现,而不到 800 个视觉 token 的输入就优于 MinerU2.0(平均每页超过 6000 个 token)的处理效果。
在实际生产环境中,DeepSeek-OCR 仅需单张 A100-40G 显卡即可实现每日超过 20 万页的大语言模型/视觉语言模型训练数据处理能力。


项目相关资源链接如下:
GitHub:https://github.com/deepseek-ai/DeepSeek-OCR
Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-OCR
