DeepSeek开源300亿参数OCR模型：创新光学压缩技术解析

2025年10月21日，DeepSeek在GitHub平台正式开源其最新研究成果——DeepSeek-OCR模型。该模型参数规模约为30亿，是研究团队在“光学二维映射压缩”技术方向上，针对长文本上下

DeepSeek开源30亿参数OCR模型，创新光学压缩技术

2025年10月21日，DeepSeek在GitHub平台上正式开源了其最新研究成果——DeepSeek-OCR模型。这一模型拥有约30亿参数规模，是研究团队在“光学二维映射压缩”技术方向上，针对长文本上下文处理问题进行的首次系统性探索。

DeepSeek-OCR的核心架构由两部分组成：DeepEncoder编码器与DeepSeek3B-MoE-A570M解码器。其中，DeepEncoder能够在高分辨率图像输入条件下保持较低的激活水平，实现高效的视觉信息压缩，并生成数量适中的视觉token；解码器则基于这些视觉token，精准还原为可读文本。

实验结果表明，在文本token数量不超过视觉token十倍的情况下（即压缩率低于10倍），模型的OCR识别准确率可达97%；即使将压缩率提升至20倍，识别准确率仍能保持在60%左右，展现出较强的鲁棒性。

研究团队指出，该模型不仅验证了光学压缩技术在长上下文处理中的可行性，也为大语言模型在记忆机制、信息遗忘与高效存储方面的理论研究提供了新的技术路径和实验依据。

相关论文题为DeepSeek-OCR: Contexts Optical Compression，项目代码及模型已公开发布，研究资料可通过指定学术平台获取。

DeepSeek开源300亿参数OCR模型：创新光学压缩技术解析

相关推荐

同类最新

小米SU7六月销量揭晓零售34738辆批发超2万辆

Meta投资百亿美元建设加拿大首个数据中心

iPhone 18 Pro A20 Pro芯片沿用LPDDR5X架构

三星全业务启动AI转型全面引入生成式AI工具

太平洋证券：硅烷材料从光伏辅料拓展至硅碳负极与光纤核心