DeepSeek-OCR视觉压缩突破：探索AGI发展的新路径

首页

科技

热心网友

转载

2025-10-21

来源:https://www.itbear.com.cn/html/2025-10/993801.html

近日，硅谷科技圈为一款来自中国的开源模型沸腾不已。这款名为DeepSeek-OCR的300亿参数模型，凭借“视觉压缩文本”的创新理念，在GitHub上线三天就斩获了3300颗星，HuggingFace热榜冲至次席，X平台更是掀起关于“AI的JPEG时刻”的热烈讨论。

这款被开发者戏称为“被名字耽误的革命性模型”，其核心突破在于重构了文本处理范式。研究团队发现，当文本token数与视觉token数的压缩比控制在10倍以内时，模型OCR解码准确率高达97%；即便压缩到20倍，仍能保持60%的准确度。这种“以图载文”的思路，恰似人类阅读时“扫一眼知全貌”的认知模式——通过单张图片承载数千文字信息，显著降低计算成本。

技术实现层面，模型采用双组件架构：编码器DeepEncoder负责将图像转化为高密度视觉token，解码器DeepSeek3B-MoE-A570M则从压缩token中重建文本。其中编码器的设计尤为精妙：先通过窗口注意力机制进行局部特征提取，再经16倍卷积压缩器削减token数量，最后由全局注意力模型完成深度理解。这种“局部-压缩-全局”的三段式处理，使1024x1024分辨率的图像token数从4096锐减至256。

实验数据显示，该模型在主流文档解析基准OmniDocBench上刷新纪录。仅用100个视觉token，性能即超越使用256个token的GOT-OCR2.0；400个token时与先前SOTA持平；不到800个token便大幅领先需要7000个token的MinerU2.0。更惊人的是其训练效率——单块A100-40G GPU每日可生成超过20万页优质训练数据，较传统方法提升数十倍。

技术突破背后是三位低调研究者的智慧结晶。主导开发者Haoran Wei曾主持第二代OCR系统GOT-OCR2.0研发，此次工作延续了端到端文档解析的技术路径。核心成员Yaofeng Sun深度参与DeepSeek R1、V3等明星模型开发，而拥有谷歌近万次学术引用的Yukun Li，则持续贡献于V2/V3系列模型优化。

研究团队提出的“光学压缩模拟遗忘机制”引发更深层思考。通过将近期记忆比作高分辨率图像（需要更多token保留细节），远期记忆类比为模糊图像（用少量token自然压缩），模型可动态分配计算资源。这种类脑设计使超长上下文处理成为可能——当对话或文档跨越漫长时间轴时，系统能像人类记忆般自动“淡忘”非关键信息，同时保持核心内容的精准度。

卡帕西等AI领域权威对“视觉优于文本输入”的设计给予高度评价，认为这打开了AI记忆架构的新路径。相较于传统模型对短期、中期、远期上下文“一视同仁”的处理方式，DeepSeek的解决方案更接近人类认知模式，有望解决长文本处理中的算力爆炸难题。

目前该模型已展现多领域解析能力，除常规文字识别外，还能深度解析金融报表、化学分子式、数学几何图及百余种语言文档。这种跨模态理解突破，正推动AI向更接近人类智能的方向演进。

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：塔拉星球麦田丰收：人类新家园的三年耕耘之路下一篇：DeepSeek开源300亿参数OCR模型：创新光学压缩技术解析