首页 游戏 软件 资讯 排行榜 专题
首页
AI
DeepSeek多模态技术范式解析视觉原语思考方式

DeepSeek多模态技术范式解析视觉原语思考方式

热心网友
80
转载
2026-05-17

五一假期前夕,AI领域再次迎来突破性进展。DeepSeek正式在GitHub开源了其多模态大模型,并同步发布了详细的技术报告,揭示了其在视觉推理领域的创新方法论。



实际上,在官方正式发布前,已有部分用户在网页端和App上提前体验到了这项能力。随着技术报告的公开,一种开创性的多模态推理范式正式亮相,为解决视觉语言模型的核心难题提供了全新思路。





这篇题为《Thinking with Visual Primitives》(以视觉原语思考)的论文,直指当前多模态大模型的关键瓶颈:模型或许具备视觉感知能力,但在复杂推理任务中往往难以保持精确的思维连贯性。



举例来说,当模型面对一张人群密集的照片被询问“图中有多少人”时,它很可能出现计数错误。或者,当分析一张复杂的电路图并回答“左侧红色电容位于右侧电感的哪一侧”时,模型的回答常常模糊不清甚至自相矛盾。问题的根源何在?这不仅仅是视觉识别精度不足,更本质的是模型在构建语言推理链时,难以将抽象描述精准锚定到具体的视觉对象上。

DeepSeek将这一挑战定义为“指代鸿沟”(Reference Gap),并提出了一套系统性的解决方案。

背景:视觉感知与空间推理的本质差异

要理解这一鸿沟,可以设想这样一个场景:你正通过电话向朋友描述电脑屏幕上的一盘复杂棋局。你说“左边那个棋子要吃掉中间偏右的那个棋子”,电话另一端的人很可能感到困惑,因为他无法确定你具体指的是哪两颗棋子。

这正是当前多模态大模型在视觉推理中面临的困境。它们使用自然语言构建“思维链”,但自然语言本身具有固有的模糊性。“左侧较大的物体”、“靠近中央的红色区域”这类描述,在信息密集的视觉场景中难以实现精确定位。模型的注意力在推理过程中容易发生“漂移”,导致逻辑混乱和最终结论错误。

此前,学术界的主流研究方向集中在提升模型的“视觉感知能力”,例如采用高分辨率切分、动态分块等技术来弥补“感知鸿沟”。然而,这篇论文指出,即使感知能力再强,也无法替代精确的“空间指代能力”。“看到物体”和“能清晰说明正在观察哪个物体”本质上是两个不同层次的问题。

架构基础:基于V4-Flash的强大语言模型

这项研究以DeepSeek最新发布的V4-Flash模型作为语言主干。这是一个总参数量达284B、推理时激活13B参数的混合专家模型。视觉编码部分采用了自研的ViT架构,支持任意分辨率的图像输入,为多模态处理提供了灵活的基础。



团队的核心贡献在于提出了一套创新的“训练哲学”:如何用极少的视觉token,教会模型在推理过程中精确地指代视觉对象,实现从“看到”到“想清楚”的跨越。

核心创新一:将空间坐标转化为思维单元

这项研究最核心的思路可以概括为:将点坐标和边界框(Bounding Box)提升为推理的基本单位,让它们像文字一样自然地融入模型的思维链中。

传统方法中,边界框通常是推理结束后的输出结果。模型先完成思考,再告诉你“目标位于图片左上角坐标[100,200,300,400]”。这更像是一种事后标注,而非思考过程的一部分。

DeepSeek采用了截然不同的方法。模型在推理的每一步,只要提及一个视觉对象,就会同步输出其坐标信息。例如,在分析一张图片时,模型的内部推理过程会呈现为:

「扫描图片寻找熊,找到一只 <|ref|> 熊 <|/ref|><|box|>[[452,23,804,411]]<|/box|>,它正在爬树,不在地面上,排除。再往左下看,找到另一只 <|ref|> 熊 <|/ref|><|box|>[[50,447,647,771]]<|/box|>,站在岩石边缘,符合条件。」

这类似于人类在清点物品时会用手指逐一点过去。坐标不再是最终的答案,而是推理过程中用于消除歧义的“空间锚点”。模型的逻辑链被牢牢地固定在图像的物理坐标上,有效避免了注意力漂移问题。

这套机制包含两种“视觉原语”:边界框用于需要精确定位和尺寸信息的对象;点坐标则用于更抽象的空间指代,比如描绘迷宫探索轨迹或追踪曲线路径。

核心创新二:7056倍的视觉信息压缩

另一项令人印象深刻的技术创新体现在架构层面的极致压缩上。

对于一张756×756像素的图片,传统方案需要将大量视觉token输入语言模型。而DeepSeek的处理流程则高效得多:图片首先经过ViT处理,生成2916个图像块token;随后进行3×3的空间压缩,合并为324个token;最后,借助V4-Flash内置的“压缩稀疏注意力”机制,将KV缓存进一步压缩4倍,最终仅剩下81个视觉KV条目。

从原始像素到最终缓存条目,整体压缩比达到了惊人的7056倍。

这意味着,处理一张800×800的图片,该模型仅需约90个KV缓存条目。相比之下,Claude Sonnet 4.6需要约870个,Gemini-3-Flash则需要约1100个。论文的核心论点是:精确的空间指代能力,可以在相当程度上弥补视觉token数量的不足。模型未必需要“看更多细节”,但必须“指更准确位置”。

核心创新三:精心设计的冷启动训练数据

技术创新的第三个维度体现在训练数据的构建策略上。

团队首先爬取了近10万个与目标检测相关的数据集,经过语义和几何质量两轮严格筛选,最终保留了约3.17万个高质量数据源,并生成了超过4000万条训练样本。

在专项的“视觉原语思考”冷启动数据构建上,团队设计了四类核心任务:

第一类是计数任务,分为粗粒度(如图中有多少人)和细粒度(如穿蓝色衣服的有几人)。对于粗粒度计数,模型学习“批量锁定”策略,即一次性框出所有候选对象再统计;对于细粒度计数,则学习逐一扫描、核对属性的策略。这两种策略对应不同的认知负荷,分别进行针对性训练。



第二类是空间推理与视觉问答,大量利用GQA(自然场景)和CLEVR工具链(可控合成场景)生成多跳推理样本,迫使模型在每一步推理时都必须用边界框锁定所涉及的对象。



第三类是迷宫导航,共生成46万条样本。团队使用DFS、Prim和Kruskal算法生成了矩形、圆形、六边形三种拓扑结构的迷宫,并专门设计了“表面可解但实际无解”的迷宫来训练模型的鲁棒性。模型需要用点坐标记录每一步探索轨迹,回溯时也需用坐标标记已排除的路径。



第四类是路径追踪,共12.5万条样本。给定一张多条贝塞尔曲线相互交叉的图,要求模型追踪从指定起点到终点的曲线。关键挑战在于“交叉歧义消解”:当两条线交叉时,模型必须判断哪一条才是目标曲线的延续,而不能依赖颜色等取巧特征——团队专门设计了所有曲线颜色相同的测试版本以杜绝模型取巧。



训练流程:分阶段专业化与统一化策略

在后训练阶段,团队采用了“先专家化,后统一”的分阶段策略。

第一步,分别使用边界框数据和点坐标数据训练两个专家模型,避免两种模态在数据量不足时相互干扰。

第二步,对两个专家模型分别进行强化学习,采用GRPO算法。奖励函数设计得非常精细:格式奖励(输出格式是否正确)、质量奖励(由LLM评判思考内容与答案是否一致)、精度奖励(任务特定)三路并行。例如,计数任务采用平滑指数衰减奖励而非简单的对错二值奖励;迷宫任务的奖励则分解为因果探索进度、探索完整性、穿墙惩罚、路径有效性、答案正确性五个子项。这一切都是为了给模型提供密集且信息丰富的学习信号。

第三步,利用两个专家模型产生的数据,对统一模型进行强化微调。为了获得更好的起点,团队甚至从预训练模型重新初始化开始训练。

第四步,采用“在线策略蒸馏”技术,弥合统一模型与专家模型之间的性能差距——让学生模型自己生成推理轨迹,然后最小化其输出分布与专家分布之间的KL散度。

实验结果:在最具挑战性的任务上实现显著超越

论文在11个基准测试上进行了全面评测,对比模型包括Gemini-3-Flash、GPT-5.4、Claude Sonnet 4.6、Gemma4-31B、Qwen3-VL-235B等主流多模态大模型。



关键结果如下:

在计数任务上,该模型在Pixmo-Count(精确匹配)上得分89.2%,超过Gemini-3-Flash的88.2%,并大幅领先GPT-5.4的76.6%和Claude Sonnet 4.6的68.7%。在细粒度计数任务上,以88.7%的得分超过Qwen3-VL的87.2%,位居第一。

在空间推理的多个基准上,整体表现与头部模型持平或略有超越,在MIHBench和SpatialMQA上均排名第一。

最具代表性的差距出现在拓扑推理任务上。在迷宫导航任务中,该模型得分66.9%,而GPT-5.4为50.6%,Gemini-3-Flash为49.4%,Claude Sonnet 4.6为48.9%——所有前沿模型都只能答对一半左右,而该模型将性能提升了约17个百分点。在路径追踪任务中,该模型以56.7%的得分,领先于GPT-5.4的46.5%和Gemini-3-Flash的41.4%,优势同样明显。

论文也诚实地指出:“所有前沿模型在拓扑推理任务上均表现欠佳,说明多模态大模型的推理能力仍有相当大的提升空间。”

以下是论文展示的几个定性分析示例:







当前局限与未来发展方向

论文并未回避当前模型的几个已知局限性。

首先,模型需要明确的“触发词”才会启用视觉原语机制,尚不能自主判断何时该使用这种“用手指点”的思考方式。其次,受输入分辨率限制,在极细粒度的视觉场景中,视觉原语的位置精度偶尔会不足。团队认为,与现有高分辨率感知方案结合是自然的下一步。最后,利用点坐标解决复杂拓扑推理问题,其跨场景的泛化能力目前仍然有限。

结语:重新定义多模态模型的思考方式

这篇论文的价值,远不止于在几个评测榜单上取得领先。

它提出的核心问题——“推理过程中语言指代的歧义性是多模态模型的根本瓶颈之一”——在此前并非学界的主流叙事。主流努力方向往往是更大的模型规模、更高的分辨率、更多的训练数据。

而这项研究开辟了另一条技术路径:未必需要让模型“看更多细节”,而是要让模型“指更准确位置”。用坐标代替模糊的语言描述,用空间锚点来稳定逻辑链,将视觉信息从被动的感知对象,转变为主动的思考工具。

从这个角度看,《Thinking with Visual Primitives》更像是在为多模态推理增添一种新的“思考范式”。这是一种人类在处理复杂视觉任务时本能就会使用,但AI此前一直缺失的能力:用手指点着思考,用空间坐标锚定逻辑。

来源:https://www.163.com/dy/article/KRPNG60E0511AQHO.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

DeepSeek终端助手发布 美国开发者打造命令行AI工具
AI
DeepSeek终端助手发布 美国开发者打造命令行AI工具

最近在终端编程工具领域,有个项目挺有意思,叫 DeepSeek-TUI。简单来说,你可以把它看作是为 DeepSeek 模型量身打造的“终端版编程智能体”,类似于 Claude Code 或 GPT 的 Codex 这类工具,当然,这个类比只是为了方便理解。 这事儿起因还挺有趣。前两天在社交媒体上,

热心网友
05.16
英伟达黄仁勋今年AI投资3080亿接近收购DeepSeek成本
AI
英伟达黄仁勋今年AI投资3080亿接近收购DeepSeek成本

最近科技圈有个数字挺震撼的:截至5月11日,英伟达在2026年对AI产业承诺的总投资额,已经超过了453亿美元。这是个什么概念?做个对比,就在几天前,有外媒报道称当红AI公司DeepSeek的估值或将超过3500亿软妹币。这么一看,英伟达今年光承诺要投出去的钱,就快赶上这家明星独角兽的估值了。 这笔

热心网友
05.16
DeepSeek人工智能公司简介与技术创新解析
AI
DeepSeek人工智能公司简介与技术创新解析

在人工智能技术飞速发展的今天,DeepSeek作为一家备受瞩目的AI公司,凭借其领先的大语言模型解决方案持续引领创新。其最新发布的DeepSeek-V3模型,拥有高达671亿的参数量,并采用了先进的混合专家架构。这一设计使得模型在处理不同任务时能够智能地动态调用相关参数模块,从而在保持顶尖性能的同时

热心网友
05.16
DeepSeek数据库表结构生成指南:需求描述转SQL设计
AI
DeepSeek数据库表结构生成指南:需求描述转SQL设计

要让DeepSeek生成可用的MySQL数据库表结构,关键在于提供精确、结构化的指令。必须明确定义每个字段的名称、类型、约束、索引和中文注释,并指定MySQL版本以确保兼容性。如需建库、索引等额外操作,也需在提示词中明确写出。

热心网友
05.16
DeepSeek模型训练数据截止日期最新说明
AI
DeepSeek模型训练数据截止日期最新说明

DeepSeek模型的知识截止时间因版本和部署渠道而异,并非统一日期。V3模型数据截止于2024年7月,V3 1扩展至2024年底,而R1版本明确截止于2024年12月。官方在线新模型自报截止日期为2025年5月。需注意,同一模型在不同平台可能加载不同时间点的数据快照,且所有版本均不支持联网检索,知识截止是硬性边界。

热心网友
05.16

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

美国将比特币列为国家安全资产对全球局势与加密市场的影响
web3.0
美国将比特币列为国家安全资产对全球局势与加密市场的影响

在全球紧张局势下,美国国防部将比特币重新定义为国家安全资产,反映出其战略价值提升。美国国库持有大量比特币,大国博弈中加密货币已成为国家安全筹码。市场普遍认为这一身份转变将增强机构需求,推动价格上涨。后续需关注美国政策动向、地缘政治变化及相关监管动态。

热心网友
05.17
Windows蓝屏代码0x00000012修复指南 内核异常解决方法详解
系统平台
Windows蓝屏代码0x00000012修复指南 内核异常解决方法详解

当Windows系统遭遇蓝屏时,那些含义不明的错误代码往往令人困扰。例如代码0x00000012 (TRAP_CAUSE_UNKNOWN),其官方解释为“内核捕获到无法识别的异常”。这就像一个笼统的系统警报,提示底层发生了问题,但并未指明具体故障点。此类错误通常不关联特定系统文件,反而更常见于新硬件

热心网友
05.17
Win10系统安装Java环境详细步骤与JDK配置指南
系统平台
Win10系统安装Java环境详细步骤与JDK配置指南

必须安装JDK并配置JA VA_HOME与Path环境变量;先下载JDK 17 21 LTS版本,安装时取消“Add to PATH”,再手动设置JA VA_HOME指向安装目录,并在Path中添加%JA VA_HOME% bin,最后用ja va -version等命令验证。 在Windows 1

热心网友
05.17
Mac图片文字提取技巧 苹果自带OCR功能使用指南
系统平台
Mac图片文字提取技巧 苹果自带OCR功能使用指南

对于Mac用户而言,从图片中提取文字其实无需额外安装第三方OCR软件。macOS系统自身就集成了强大的光学字符识别功能,它基于苹果自研的Vision框架与Core ML机器学习模型。最大的优势在于完全离线运行,所有图片处理均在本地完成,无需上传至任何云端服务器,充分保障了用户的隐私与数据安全。本文将

热心网友
05.17
Linux服务器开启TCP Keepalive防止数据库连接断开教程
系统平台
Linux服务器开启TCP Keepalive防止数据库连接断开教程

数据库长连接在静默中突然断开,是很多运维和开发都踩过的坑。你以为启用了TCP Keepalive就万事大吉?真相是,如果应用层、内核层和基础设施层的配置没有协同对齐,这个“保活”机制基本等于形同虚设。 问题的核心在于,一个完整的TCP Keepalive生效链条涉及三个环节:你的应用程序或连接池是否

热心网友
05.17