DeepSeek公开新技术了!多模态模型技术报告公布:超越GPT-5.4
DeepSeek发布多模态推理新技术:以“视觉原语”思考,突破“指代鸿沟”
5月1日,DeepSeek在GitHub上发布了一份引人注目的技术报告,题为《Thinking with Visual Primitives(以视觉原语思考)》,同时公开了其全新的多模态推理模型。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
这项技术基于DeepSeek V4-Flash架构构建,这是一个总参数量达2840亿、推理时激活130亿参数的混合专家模型。其核心,在于提出了一种碘伏性的多模态推理新范式。

报告一针见血地指出了一个长期被忽视的根本瓶颈——“指代鸿沟”。简单来说,现有模型虽然能“看见”图片,但在用自然语言进行内部推理时,问题就来了。当思维链中间出现“左边那个大的、靠近中央的红色物体”这类模糊描述时,在复杂密集的场景中,模型的注意力很容易“漂移”,导致指代对象混乱,最终得出错误结论。
以往,业界的思路大多集中在提升视觉感知的分辨率上。但这份报告提出了一个关键洞见:“看见”和“能说清楚在说哪个”,完全是两码事。感知再清晰,若推理过程无法精确定位,也是徒劳。
那么,DeepSeek的解法是什么?答案是:将空间坐标直接嵌入思维链。模型的核心创新在于,让点坐标和边界框成为推理过程的基本单元。模型在思考中每提及一个视觉对象,便会同步输出其坐标,将空间信息作为消除歧义的“锚点”。
这就好比推理过程有了精确的“空间坐标笔记”。例如,模型的思维链可能是这样的:“找到一只熊[452,23,804,411],它正在爬树,排除;再往左下角看,找到另一只[50,447,647,771],它站在岩石边缘,符合条件。”在这里,坐标不再是事后标注的答案,而是驱动推理、确保每一步都指向正确目标的关键工具。

为了实现高效推理,模型在架构层面实现了惊人的视觉压缩效率。一张756×756的图片,经过视觉Transformer处理后,会生成2916个图像块token。随后,通过3×3的空间压缩合并为324个token,再经由压缩稀疏注意力机制,将键值缓存进一步压缩4倍。最终,仅用81个视觉KV条目即可表征整张图片。
这个数字有多极致?不妨做个对比:处理同样尺寸的图片,Claude Sonnet 4.6大约需要870个条目,而Gemini-3-Flash则需要约1100个。DeepSeek的方案在效率上优势明显。
强大的能力离不开高质量的数据。研究团队从近十万个目标检测数据集中,精心筛选出约3.17万个高质量数据源,并由此生成了超过4000万条训练样本。这些数据重点覆盖了计数、空间推理、迷宫导航和路径追踪四类核心任务。
在训练策略上,团队采用了“先专家化,后统一”的两步走方案。首先,分别训练擅长边界框预测和点坐标预测的两个专家模型;随后,通过强化学习进行优化,并最终利用在线策略蒸馏技术,将两者融合为一个统一的强大模型。
效果如何?实验部分给出了答案。模型在11个基准测试上,与Gemini-3-Flash、GPT-5.4、Claude Sonnet 4.6等主流模型进行了全面对比。

在计数任务上,模型在Pixmo-Count基准上的精确匹配得分达到89.2%,超越了Gemini-3-Flash的88.2%,并大幅领先于GPT-5.4的76.6%和Claude Sonnet 4.6的68.7%。
更具代表性的差距出现在拓扑推理任务上。在迷宫导航任务中,模型得分达到66.9%,而GPT-5.4为50.6%,Gemini-3-Flash为49.4%,Claude Sonnet 4.6为48.9%,领先优势约17个百分点。在路径追踪任务中,模型以56.7%的得分,领先于GPT-5.4的46.5%。这些数据清晰地展示了“视觉原语”在复杂空间推理上的独特优势。
当然,报告也客观指出了当前模型的局限性。例如,模型需要明确的触发词才会启用视觉原语机制;在极细粒度的场景下,坐标精度仍有提升空间;模型的跨场景泛化能力,也是未来需要持续优化的方向。

相关攻略
怎么让DeepSeek V4读PDF:文档解析与关键信息提取【阅读】 当你尝试用DeepSeek V4解析PDF文档、提取关键信息,却总感觉结果差点意思——文本对不上、表格乱了套、关键数据莫名其妙消失了。别急着怀疑模型的能力,问题很可能出在方法上。从文档类型误判到提示词模糊,任何一个环节的疏漏,都会
一、启用多语言精准翻译模式 DeepSeek支持多达68种语言的互译,这本身已经相当强大。但如果你处理的是专业文档,可能会发现标准翻译模式对一些行业术语的把握不够精准。这时候,不妨试试它的“多语言精准翻译模式”。这个模式的设计初衷,就是为了解决专业术语的翻译难题——它能智能结合句法结构和内置的行业词
一、使用自然语言指令触发内置清洗逻辑 DeepSeek V4在表格语义理解上确实下了功夫。它最方便的地方在于,你直接用大白话告诉它你想干什么就行,比如“删掉重复的”、“把日期格式统一一下”。这种基于自然语言的交互,无论是本地部署还是云端调用,都能直接映射成具体的清洗动作链,省去了不少中间环节。 具体
怎么让DeepSeek扮演面试官?模拟面试对练 想让DeepSeek从普通的问答助手,切换到专业面试官的角色,进行一场结构化的模拟对练吗?这需要一些明确的设定和技巧。关键在于通过特定的角色设定、上下文约束和交互机制,来触发它的模拟行为。下面这几种方法,各有侧重,总有一款适合你。 ☞☞☞AI 智能聊天
DeepSeek V4本地日志报错:_level字段异常与堆栈丢失的排查指南 在本地部署或调试DeepSeek V4模型时,你是否遇到过这样的困扰:日志输出中_level字段显示异常、日志级别混乱不堪,或者当错误发生时,关键的堆栈信息却神秘失踪?这些问题往往不是模型本身的缺陷,而是日志系统配置不当导
热门专题
热门推荐
你做饭来我洗碗,你铺床来我睡眠 欢欢喜喜又一年,亲爱的,节日快乐,别太三八噢! 专属节日的仪式感 今天是你的节日,我的老婆。这话得落到实处——清晨我会为你做早饭;晚上我们还要一起浪漫!你看,仪式感这不就来了么。 祝福带来的美好氛围 不得不说,时间因祝福而流光溢彩,空气因祝福而芬芳袭人,心情因祝福而花
有恃无恐:一则源自《左传》的古老智慧 公元前634年的夏天,对鲁国而言是个难熬的季节。灾荒肆虐,国力空虚,这无疑给了邻国一个绝佳的机会。果不其然,齐孝公亲率大军,兵锋直指鲁国。强敌压境,国库空空如也,田野一片荒芜,这局面任谁看都是绝境。然而,历史的戏剧性转折,往往就发生在看似毫无胜算的时刻。 鲁僖公
《史记·平原君列传》记载 故事是这样的:赵王派平原君去楚国求救兵,平原君打算从门下食客中挑选二十位文武兼备的人一同前往。挑来选去,凑足了十九人,最后一位怎么也找不出来了。这时,毛遂主动站出来,向平原君推荐了自己。平原君打量了他一番,说道:“贤士处世,就好比锥子放在布袋里,尖儿立刻就会露出来。可先生在
以下是由本站提供的关于工作总结的文章,希望对大家有一定的帮助。更多关于工作总结的文章内容尽在本站。 篇一: 过去一年,我们营业部将总体目标锚定在创“一流服务质量、一流管理水平、一流人才队伍、一流工作业绩”上,并以“树金融服务文明形象,展金融服务专业风采”为核心创建主题,积极展开了东阳市级“青年文明号
西施:从溪边浣纱女到倾国倾城的一代传奇 说起中国古代的绝色佳人,西施的名字总是最先被提起。这位春秋时期越国(今浙江诸暨一带)的女子,本名施夷光,别名西子。后世形容她“淡妆浓抹总相宜”,更有“沉鱼”之貌的典故流传——据说她在溪边浣纱时,水中的鱼儿都被她的容光所慑,看得入了神,以至于忘记游动而沉入水底。





