首页 游戏 软件 资讯 排行榜 专题
首页
业界动态
DeepSeek公开新技术了!多模态模型技术报告公布:超越GPT-5.4

DeepSeek公开新技术了!多模态模型技术报告公布:超越GPT-5.4

热心网友
56
转载
2026-05-01

DeepSeek发布多模态推理新技术:以“视觉原语”思考,突破“指代鸿沟”

5月1日,DeepSeek在GitHub上发布了一份引人注目的技术报告,题为《Thinking with Visual Primitives(以视觉原语思考)》,同时公开了其全新的多模态推理模型。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这项技术基于DeepSeek V4-Flash架构构建,这是一个总参数量达2840亿、推理时激活130亿参数的混合专家模型。其核心,在于提出了一种碘伏性的多模态推理新范式。

DeepSeek公开新技术了!多模态模型技术报告公布:超越GPT-5.4

报告一针见血地指出了一个长期被忽视的根本瓶颈——“指代鸿沟”。简单来说,现有模型虽然能“看见”图片,但在用自然语言进行内部推理时,问题就来了。当思维链中间出现“左边那个大的、靠近中央的红色物体”这类模糊描述时,在复杂密集的场景中,模型的注意力很容易“漂移”,导致指代对象混乱,最终得出错误结论。

以往,业界的思路大多集中在提升视觉感知的分辨率上。但这份报告提出了一个关键洞见:“看见”和“能说清楚在说哪个”,完全是两码事。感知再清晰,若推理过程无法精确定位,也是徒劳。

那么,DeepSeek的解法是什么?答案是:将空间坐标直接嵌入思维链。模型的核心创新在于,让点坐标和边界框成为推理过程的基本单元。模型在思考中每提及一个视觉对象,便会同步输出其坐标,将空间信息作为消除歧义的“锚点”。

这就好比推理过程有了精确的“空间坐标笔记”。例如,模型的思维链可能是这样的:“找到一只熊[452,23,804,411],它正在爬树,排除;再往左下角看,找到另一只[50,447,647,771],它站在岩石边缘,符合条件。”在这里,坐标不再是事后标注的答案,而是驱动推理、确保每一步都指向正确目标的关键工具。

DeepSeek公开新技术了!多模态模型技术报告公布:超越GPT-5.4

为了实现高效推理,模型在架构层面实现了惊人的视觉压缩效率。一张756×756的图片,经过视觉Transformer处理后,会生成2916个图像块token。随后,通过3×3的空间压缩合并为324个token,再经由压缩稀疏注意力机制,将键值缓存进一步压缩4倍。最终,仅用81个视觉KV条目即可表征整张图片。

这个数字有多极致?不妨做个对比:处理同样尺寸的图片,Claude Sonnet 4.6大约需要870个条目,而Gemini-3-Flash则需要约1100个。DeepSeek的方案在效率上优势明显。

强大的能力离不开高质量的数据。研究团队从近十万个目标检测数据集中,精心筛选出约3.17万个高质量数据源,并由此生成了超过4000万条训练样本。这些数据重点覆盖了计数、空间推理、迷宫导航和路径追踪四类核心任务。

在训练策略上,团队采用了“先专家化,后统一”的两步走方案。首先,分别训练擅长边界框预测和点坐标预测的两个专家模型;随后,通过强化学习进行优化,并最终利用在线策略蒸馏技术,将两者融合为一个统一的强大模型。

效果如何?实验部分给出了答案。模型在11个基准测试上,与Gemini-3-Flash、GPT-5.4、Claude Sonnet 4.6等主流模型进行了全面对比。

DeepSeek公开新技术了!多模态模型技术报告公布:超越GPT-5.4

在计数任务上,模型在Pixmo-Count基准上的精确匹配得分达到89.2%,超越了Gemini-3-Flash的88.2%,并大幅领先于GPT-5.4的76.6%和Claude Sonnet 4.6的68.7%。

更具代表性的差距出现在拓扑推理任务上。在迷宫导航任务中,模型得分达到66.9%,而GPT-5.4为50.6%,Gemini-3-Flash为49.4%,Claude Sonnet 4.6为48.9%,领先优势约17个百分点。在路径追踪任务中,模型以56.7%的得分,领先于GPT-5.4的46.5%。这些数据清晰地展示了“视觉原语”在复杂空间推理上的独特优势。

当然,报告也客观指出了当前模型的局限性。例如,模型需要明确的触发词才会启用视觉原语机制;在极细粒度的场景下,坐标精度仍有提升空间;模型的跨场景泛化能力,也是未来需要持续优化的方向。

DeepSeek公开新技术了!多模态模型技术报告公布:超越GPT-5.4

来源:https://m.mydrivers.com/newsview/1119666.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

怎么让DeepSeek V4读PDF_文档解析与关键信息提取【阅读】
AI
怎么让DeepSeek V4读PDF_文档解析与关键信息提取【阅读】

怎么让DeepSeek V4读PDF:文档解析与关键信息提取【阅读】 当你尝试用DeepSeek V4解析PDF文档、提取关键信息,却总感觉结果差点意思——文本对不上、表格乱了套、关键数据莫名其妙消失了。别急着怀疑模型的能力,问题很可能出在方法上。从文档类型误判到提示词模糊,任何一个环节的疏漏,都会

热心网友
05.01
DeepSeek能翻译多国语言吗?_DeepSeek专业术语翻译与语境适配【工具】
AI
DeepSeek能翻译多国语言吗?_DeepSeek专业术语翻译与语境适配【工具】

一、启用多语言精准翻译模式 DeepSeek支持多达68种语言的互译,这本身已经相当强大。但如果你处理的是专业文档,可能会发现标准翻译模式对一些行业术语的把握不够精准。这时候,不妨试试它的“多语言精准翻译模式”。这个模式的设计初衷,就是为了解决专业术语的翻译难题——它能智能结合句法结构和内置的行业词

热心网友
05.01
DeepSeek V4怎么生成Excel_数据清洗与表格自动化【数据】
AI
DeepSeek V4怎么生成Excel_数据清洗与表格自动化【数据】

一、使用自然语言指令触发内置清洗逻辑 DeepSeek V4在表格语义理解上确实下了功夫。它最方便的地方在于,你直接用大白话告诉它你想干什么就行,比如“删掉重复的”、“把日期格式统一一下”。这种基于自然语言的交互,无论是本地部署还是云端调用,都能直接映射成具体的清洗动作链,省去了不少中间环节。 具体

热心网友
05.01
怎么让DeepSeek扮演面试官?模拟面试对练
AI
怎么让DeepSeek扮演面试官?模拟面试对练

怎么让DeepSeek扮演面试官?模拟面试对练 想让DeepSeek从普通的问答助手,切换到专业面试官的角色,进行一场结构化的模拟对练吗?这需要一些明确的设定和技巧。关键在于通过特定的角色设定、上下文约束和交互机制,来触发它的模拟行为。下面这几种方法,各有侧重,总有一款适合你。 ☞☞☞AI 智能聊天

热心网友
05.01
DeepSeek V4本地日志报错_level日志级别调整与异常堆栈分析【日志】
AI
DeepSeek V4本地日志报错_level日志级别调整与异常堆栈分析【日志】

DeepSeek V4本地日志报错:_level字段异常与堆栈丢失的排查指南 在本地部署或调试DeepSeek V4模型时,你是否遇到过这样的困扰:日志输出中_level字段显示异常、日志级别混乱不堪,或者当错误发生时,关键的堆栈信息却神秘失踪?这些问题往往不是模型本身的缺陷,而是日志系统配置不当导

热心网友
05.01

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

搞笑的妇女节祝福
职业与学业
搞笑的妇女节祝福

你做饭来我洗碗,你铺床来我睡眠 欢欢喜喜又一年,亲爱的,节日快乐,别太三八噢! 专属节日的仪式感 今天是你的节日,我的老婆。这话得落到实处——清晨我会为你做早饭;晚上我们还要一起浪漫!你看,仪式感这不就来了么。 祝福带来的美好氛围 不得不说,时间因祝福而流光溢彩,空气因祝福而芬芳袭人,心情因祝福而花

热心网友
05.01
有恃无恐(典故、出处、释读)
职业与学业
有恃无恐(典故、出处、释读)

有恃无恐:一则源自《左传》的古老智慧 公元前634年的夏天,对鲁国而言是个难熬的季节。灾荒肆虐,国力空虚,这无疑给了邻国一个绝佳的机会。果不其然,齐孝公亲率大军,兵锋直指鲁国。强敌压境,国库空空如也,田野一片荒芜,这局面任谁看都是绝境。然而,历史的戏剧性转折,往往就发生在看似毫无胜算的时刻。 鲁僖公

热心网友
05.01
毛遂自荐(典故、出处、释读)
职业与学业
毛遂自荐(典故、出处、释读)

《史记·平原君列传》记载 故事是这样的:赵王派平原君去楚国求救兵,平原君打算从门下食客中挑选二十位文武兼备的人一同前往。挑来选去,凑足了十九人,最后一位怎么也找不出来了。这时,毛遂主动站出来,向平原君推荐了自己。平原君打量了他一番,说道:“贤士处世,就好比锥子放在布袋里,尖儿立刻就会露出来。可先生在

热心网友
05.01
证券公司个人工作总结100字
办公文书
证券公司个人工作总结100字

以下是由本站提供的关于工作总结的文章,希望对大家有一定的帮助。更多关于工作总结的文章内容尽在本站。 篇一: 过去一年,我们营业部将总体目标锚定在创“一流服务质量、一流管理水平、一流人才队伍、一流工作业绩”上,并以“树金融服务文明形象,展金融服务专业风采”为核心创建主题,积极展开了东阳市级“青年文明号

热心网友
05.01
沉鱼落雁(典故、出处、释读)
职业与学业
沉鱼落雁(典故、出处、释读)

西施:从溪边浣纱女到倾国倾城的一代传奇 说起中国古代的绝色佳人,西施的名字总是最先被提起。这位春秋时期越国(今浙江诸暨一带)的女子,本名施夷光,别名西子。后世形容她“淡妆浓抹总相宜”,更有“沉鱼”之貌的典故流传——据说她在溪边浣纱时,水中的鱼儿都被她的容光所慑,看得入了神,以至于忘记游动而沉入水底。

热心网友
05.01