DeepSeek-OCR视觉压缩突破:探索AGI发展的新路径
近日,硅谷科技圈为一款来自中国的开源模型沸腾不已。这款名为DeepSeek-OCR的300亿参数模型,凭借“视觉压缩文本”的创新理念,在GitHub上线三天就斩获了3300颗星,HuggingFace热榜冲至次席,X平台更是掀起关于“AI的JPEG时刻”的热烈讨论。
这款被开发者戏称为“被名字耽误的革命性模型”,其核心突破在于重构了文本处理范式。研究团队发现,当文本token数与视觉token数的压缩比控制在10倍以内时,模型OCR解码准确率高达97%;即便压缩到20倍,仍能保持60%的准确度。这种“以图载文”的思路,恰似人类阅读时“扫一眼知全貌”的认知模式——通过单张图片承载数千文字信息,显著降低计算成本。
技术实现层面,模型采用双组件架构:编码器DeepEncoder负责将图像转化为高密度视觉token,解码器DeepSeek3B-MoE-A570M则从压缩token中重建文本。其中编码器的设计尤为精妙:先通过窗口注意力机制进行局部特征提取,再经16倍卷积压缩器削减token数量,最后由全局注意力模型完成深度理解。这种“局部-压缩-全局”的三段式处理,使1024x1024分辨率的图像token数从4096锐减至256。
实验数据显示,该模型在主流文档解析基准OmniDocBench上刷新纪录。仅用100个视觉token,性能即超越使用256个token的GOT-OCR2.0;400个token时与先前SOTA持平;不到800个token便大幅领先需要7000个token的MinerU2.0。更惊人的是其训练效率——单块A100-40G GPU每日可生成超过20万页优质训练数据,较传统方法提升数十倍。
技术突破背后是三位低调研究者的智慧结晶。主导开发者Haoran Wei曾主持第二代OCR系统GOT-OCR2.0研发,此次工作延续了端到端文档解析的技术路径。核心成员Yaofeng Sun深度参与DeepSeek R1、V3等明星模型开发,而拥有谷歌近万次学术引用的Yukun Li,则持续贡献于V2/V3系列模型优化。
研究团队提出的“光学压缩模拟遗忘机制”引发更深层思考。通过将近期记忆比作高分辨率图像(需要更多token保留细节),远期记忆类比为模糊图像(用少量token自然压缩),模型可动态分配计算资源。这种类脑设计使超长上下文处理成为可能——当对话或文档跨越漫长时间轴时,系统能像人类记忆般自动“淡忘”非关键信息,同时保持核心内容的精准度。
卡帕西等AI领域权威对“视觉优于文本输入”的设计给予高度评价,认为这打开了AI记忆架构的新路径。相较于传统模型对短期、中期、远期上下文“一视同仁”的处理方式,DeepSeek的解决方案更接近人类认知模式,有望解决长文本处理中的算力爆炸难题。
目前该模型已展现多领域解析能力,除常规文字识别外,还能深度解析金融报表、化学分子式、数学几何图及百余种语言文档。这种跨模态理解突破,正推动AI向更接近人类智能的方向演进。
热门专题


最新APP
热门推荐

Gate io 邀请注册奖励计划:邀请好友,共享收益! 想必大家都知道,在数字资产的世界里,信息就是金钱。而一个靠谱的交易平台,更是你驰

从Mt Gox事件看今天2014年,Mt Gox交易所的倒闭,对于当时的比特币世界来说,无疑是一场巨大的地震。 超过85万枚比特币的丢失,不仅让无数