首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
DeepSeek-OCR视觉压缩突破:探索AGI发展的新路径

DeepSeek-OCR视觉压缩突破:探索AGI发展的新路径

热心网友
73
转载
2025-10-21

近日,硅谷科技圈为一款来自中国的开源模型沸腾不已。这款名为DeepSeek-OCR的300亿参数模型,凭借“视觉压缩文本”的创新理念,在GitHub上线三天就斩获了3300颗星,HuggingFace热榜冲至次席,X平台更是掀起关于“AI的JPEG时刻”的热烈讨论。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这款被开发者戏称为“被名字耽误的革命性模型”,其核心突破在于重构了文本处理范式。研究团队发现,当文本token数与视觉token数的压缩比控制在10倍以内时,模型OCR解码准确率高达97%;即便压缩到20倍,仍能保持60%的准确度。这种“以图载文”的思路,恰似人类阅读时“扫一眼知全貌”的认知模式——通过单张图片承载数千文字信息,显著降低计算成本。

技术实现层面,模型采用双组件架构:编码器DeepEncoder负责将图像转化为高密度视觉token,解码器DeepSeek3B-MoE-A570M则从压缩token中重建文本。其中编码器的设计尤为精妙:先通过窗口注意力机制进行局部特征提取,再经16倍卷积压缩器削减token数量,最后由全局注意力模型完成深度理解。这种“局部-压缩-全局”的三段式处理,使1024x1024分辨率的图像token数从4096锐减至256。

实验数据显示,该模型在主流文档解析基准OmniDocBench上刷新纪录。仅用100个视觉token,性能即超越使用256个token的GOT-OCR2.0;400个token时与先前SOTA持平;不到800个token便大幅领先需要7000个token的MinerU2.0。更惊人的是其训练效率——单块A100-40G GPU每日可生成超过20万页优质训练数据,较传统方法提升数十倍。

技术突破背后是三位低调研究者的智慧结晶。主导开发者Haoran Wei曾主持第二代OCR系统GOT-OCR2.0研发,此次工作延续了端到端文档解析的技术路径。核心成员Yaofeng Sun深度参与DeepSeek R1、V3等明星模型开发,而拥有谷歌近万次学术引用的Yukun Li,则持续贡献于V2/V3系列模型优化。

研究团队提出的“光学压缩模拟遗忘机制”引发更深层思考。通过将近期记忆比作高分辨率图像(需要更多token保留细节),远期记忆类比为模糊图像(用少量token自然压缩),模型可动态分配计算资源。这种类脑设计使超长上下文处理成为可能——当对话或文档跨越漫长时间轴时,系统能像人类记忆般自动“淡忘”非关键信息,同时保持核心内容的精准度。

卡帕西等AI领域权威对“视觉优于文本输入”的设计给予高度评价,认为这打开了AI记忆架构的新路径。相较于传统模型对短期、中期、远期上下文“一视同仁”的处理方式,DeepSeek的解决方案更接近人类认知模式,有望解决长文本处理中的算力爆炸难题。

目前该模型已展现多领域解析能力,除常规文字识别外,还能深度解析金融报表、化学分子式、数学几何图及百余种语言文档。这种跨模态理解突破,正推动AI向更接近人类智能的方向演进。

来源:https://www.itbear.com.cn/html/2025-10/993801.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

不用登录不用实名认证的游戏推荐
游戏攻略
不用登录不用实名认证的游戏推荐

传统游戏注册流程繁琐,常因网络或系统问题打断体验。免登录游戏实现“一键启动”,无需账号密码和个人信息,几秒即可畅玩。这种即时性完美契合快节奏生活,无论是碎片时间消遣还是突发娱乐冲动,用户都能零负担进入游戏,不再因流程繁琐而放弃尝试。下面是不用登录不用实名认证的游戏推荐! 不用登录不用实名认证的游戏推

热心网友
04.23
炉石传说无界空宇洛德卡组怎么分享
游戏攻略
炉石传说无界空宇洛德卡组怎么分享

在炉石传说的世界里,一套强力的卡组能带来无尽的乐趣与胜利的喜悦 今天要和大家深入探讨的,是一套围绕“无界空宇洛德”构筑的、极具爆发力的卡组。它的魅力在于,能在中期瞬间扭转战局,给对手带来巨大的压迫感。 卡组核心思路 这套牌的战术轴心非常明确:一切为了无界空宇洛德服务。前期,我们需要用低费卡牌进行场面

热心网友
04.23
《Pragmata》全服装获取方式一览
游戏攻略
《Pragmata》全服装获取方式一览

《Pragmata》全服装获取攻略!解锁Hugh和Diana所有外观,包括宾果板、通关奖励及豪华版专属服装。无属性加成,纯外观收集指南。 对于任何一款值得投入时间的游戏来说,角色外观的收集与搭配,本身就是一大乐趣。虽然在《Pragmata》里,服装并不影响战斗数值,但谁不想让自己操控的角色在末世冒险

热心网友
04.23
《明日方舟终末地》庄方宜电队搭配一图流
游戏攻略
《明日方舟终末地》庄方宜电队搭配一图流

《明日方舟终末地》庄方宜电队搭配一图流 《明日方舟终末地》1 2版本推出的新角色庄方宜,定位是六星电系核心输出。很多玩家拿到手后,最关心的问题自然是:这位强力大C,到底该怎么配队才能发挥最大威力?下面,我们就结合玩家“十三天天”整理的一图流攻略,来详细拆解庄方宜的电系队伍搭配思路。 核心配队逻辑解析

热心网友
04.23
《明日方舟终末地》庄方宜配队与手法排轴教学
游戏攻略
《明日方舟终末地》庄方宜配队与手法排轴教学

《明日方舟终末地》庄方宜配队与手法排轴教学 在《明日方舟终末地》的战场上,雷属性角色庄方宜以其独特的机制,带来了不少操作上的可能性与策略深度。那么,如何围绕她构建队伍,并安排一套行之有效的输出循环呢?今天,我们就来深入聊聊庄方宜的配队思路与实战手法排轴。 核心配队逻辑 为庄方宜搭配队伍,关键在于理解

热心网友
04.23