DeepSeek多模态技术范式解析视觉原语思考方式

首页

热心网友

转载

2026-05-17

五一假期前夕，AI领域再次迎来突破性进展。DeepSeek正式在GitHub开源了其多模态大模型，并同步发布了详细的技术报告，揭示了其在视觉推理领域的创新方法论。

实际上，在官方正式发布前，已有部分用户在网页端和App上提前体验到了这项能力。随着技术报告的公开，一种开创性的多模态推理范式正式亮相，为解决视觉语言模型的核心难题提供了全新思路。

这篇题为《Thinking with Visual Primitives》（以视觉原语思考）的论文，直指当前多模态大模型的关键瓶颈：模型或许具备视觉感知能力，但在复杂推理任务中往往难以保持精确的思维连贯性。

举例来说，当模型面对一张人群密集的照片被询问“图中有多少人”时，它很可能出现计数错误。或者，当分析一张复杂的电路图并回答“左侧红色电容位于右侧电感的哪一侧”时，模型的回答常常模糊不清甚至自相矛盾。问题的根源何在？这不仅仅是视觉识别精度不足，更本质的是模型在构建语言推理链时，难以将抽象描述精准锚定到具体的视觉对象上。

DeepSeek将这一挑战定义为“指代鸿沟”（Reference Gap），并提出了一套系统性的解决方案。

背景：视觉感知与空间推理的本质差异

要理解这一鸿沟，可以设想这样一个场景：你正通过电话向朋友描述电脑屏幕上的一盘复杂棋局。你说“左边那个棋子要吃掉中间偏右的那个棋子”，电话另一端的人很可能感到困惑，因为他无法确定你具体指的是哪两颗棋子。

这正是当前多模态大模型在视觉推理中面临的困境。它们使用自然语言构建“思维链”，但自然语言本身具有固有的模糊性。“左侧较大的物体”、“靠近中央的红色区域”这类描述，在信息密集的视觉场景中难以实现精确定位。模型的注意力在推理过程中容易发生“漂移”，导致逻辑混乱和最终结论错误。

此前，学术界的主流研究方向集中在提升模型的“视觉感知能力”，例如采用高分辨率切分、动态分块等技术来弥补“感知鸿沟”。然而，这篇论文指出，即使感知能力再强，也无法替代精确的“空间指代能力”。“看到物体”和“能清晰说明正在观察哪个物体”本质上是两个不同层次的问题。

架构基础：基于V4-Flash的强大语言模型

这项研究以DeepSeek最新发布的V4-Flash模型作为语言主干。这是一个总参数量达284B、推理时激活13B参数的混合专家模型。视觉编码部分采用了自研的ViT架构，支持任意分辨率的图像输入，为多模态处理提供了灵活的基础。

团队的核心贡献在于提出了一套创新的“训练哲学”：如何用极少的视觉token，教会模型在推理过程中精确地指代视觉对象，实现从“看到”到“想清楚”的跨越。

核心创新一：将空间坐标转化为思维单元

这项研究最核心的思路可以概括为：将点坐标和边界框（Bounding Box）提升为推理的基本单位，让它们像文字一样自然地融入模型的思维链中。

传统方法中，边界框通常是推理结束后的输出结果。模型先完成思考，再告诉你“目标位于图片左上角坐标[100,200,300,400]”。这更像是一种事后标注，而非思考过程的一部分。

DeepSeek采用了截然不同的方法。模型在推理的每一步，只要提及一个视觉对象，就会同步输出其坐标信息。例如，在分析一张图片时，模型的内部推理过程会呈现为：

「扫描图片寻找熊，找到一只 <|ref|> 熊 <|/ref|><|box|>[[452,23,804,411]]<|/box|>，它正在爬树，不在地面上，排除。再往左下看，找到另一只 <|ref|> 熊 <|/ref|><|box|>[[50,447,647,771]]<|/box|>，站在岩石边缘，符合条件。」

这类似于人类在清点物品时会用手指逐一点过去。坐标不再是最终的答案，而是推理过程中用于消除歧义的“空间锚点”。模型的逻辑链被牢牢地固定在图像的物理坐标上，有效避免了注意力漂移问题。

这套机制包含两种“视觉原语”：边界框用于需要精确定位和尺寸信息的对象；点坐标则用于更抽象的空间指代，比如描绘迷宫探索轨迹或追踪曲线路径。

核心创新二：7056倍的视觉信息压缩

另一项令人印象深刻的技术创新体现在架构层面的极致压缩上。

对于一张756×756像素的图片，传统方案需要将大量视觉token输入语言模型。而DeepSeek的处理流程则高效得多：图片首先经过ViT处理，生成2916个图像块token；随后进行3×3的空间压缩，合并为324个token；最后，借助V4-Flash内置的“压缩稀疏注意力”机制，将KV缓存进一步压缩4倍，最终仅剩下81个视觉KV条目。

从原始像素到最终缓存条目，整体压缩比达到了惊人的7056倍。

这意味着，处理一张800×800的图片，该模型仅需约90个KV缓存条目。相比之下，Claude Sonnet 4.6需要约870个，Gemini-3-Flash则需要约1100个。论文的核心论点是：精确的空间指代能力，可以在相当程度上弥补视觉token数量的不足。模型未必需要“看更多细节”，但必须“指更准确位置”。

核心创新三：精心设计的冷启动训练数据

技术创新的第三个维度体现在训练数据的构建策略上。

团队首先爬取了近10万个与目标检测相关的数据集，经过语义和几何质量两轮严格筛选，最终保留了约3.17万个高质量数据源，并生成了超过4000万条训练样本。

在专项的“视觉原语思考”冷启动数据构建上，团队设计了四类核心任务：

第一类是计数任务，分为粗粒度（如图中有多少人）和细粒度（如穿蓝色衣服的有几人）。对于粗粒度计数，模型学习“批量锁定”策略，即一次性框出所有候选对象再统计；对于细粒度计数，则学习逐一扫描、核对属性的策略。这两种策略对应不同的认知负荷，分别进行针对性训练。

第二类是空间推理与视觉问答，大量利用GQA（自然场景）和CLEVR工具链（可控合成场景）生成多跳推理样本，迫使模型在每一步推理时都必须用边界框锁定所涉及的对象。

第三类是迷宫导航，共生成46万条样本。团队使用DFS、Prim和Kruskal算法生成了矩形、圆形、六边形三种拓扑结构的迷宫，并专门设计了“表面可解但实际无解”的迷宫来训练模型的鲁棒性。模型需要用点坐标记录每一步探索轨迹，回溯时也需用坐标标记已排除的路径。

第四类是路径追踪，共12.5万条样本。给定一张多条贝塞尔曲线相互交叉的图，要求模型追踪从指定起点到终点的曲线。关键挑战在于“交叉歧义消解”：当两条线交叉时，模型必须判断哪一条才是目标曲线的延续，而不能依赖颜色等取巧特征——团队专门设计了所有曲线颜色相同的测试版本以杜绝模型取巧。

训练流程：分阶段专业化与统一化策略

在后训练阶段，团队采用了“先专家化，后统一”的分阶段策略。

第一步，分别使用边界框数据和点坐标数据训练两个专家模型，避免两种模态在数据量不足时相互干扰。

第二步，对两个专家模型分别进行强化学习，采用GRPO算法。奖励函数设计得非常精细：格式奖励（输出格式是否正确）、质量奖励（由LLM评判思考内容与答案是否一致）、精度奖励（任务特定）三路并行。例如，计数任务采用平滑指数衰减奖励而非简单的对错二值奖励；迷宫任务的奖励则分解为因果探索进度、探索完整性、穿墙惩罚、路径有效性、答案正确性五个子项。这一切都是为了给模型提供密集且信息丰富的学习信号。

第三步，利用两个专家模型产生的数据，对统一模型进行强化微调。为了获得更好的起点，团队甚至从预训练模型重新初始化开始训练。

第四步，采用“在线策略蒸馏”技术，弥合统一模型与专家模型之间的性能差距——让学生模型自己生成推理轨迹，然后最小化其输出分布与专家分布之间的KL散度。

实验结果：在最具挑战性的任务上实现显著超越

论文在11个基准测试上进行了全面评测，对比模型包括Gemini-3-Flash、GPT-5.4、Claude Sonnet 4.6、Gemma4-31B、Qwen3-VL-235B等主流多模态大模型。

关键结果如下：

在计数任务上，该模型在Pixmo-Count（精确匹配）上得分89.2%，超过Gemini-3-Flash的88.2%，并大幅领先GPT-5.4的76.6%和Claude Sonnet 4.6的68.7%。在细粒度计数任务上，以88.7%的得分超过Qwen3-VL的87.2%，位居第一。

在空间推理的多个基准上，整体表现与头部模型持平或略有超越，在MIHBench和SpatialMQA上均排名第一。

最具代表性的差距出现在拓扑推理任务上。在迷宫导航任务中，该模型得分66.9%，而GPT-5.4为50.6%，Gemini-3-Flash为49.4%，Claude Sonnet 4.6为48.9%——所有前沿模型都只能答对一半左右，而该模型将性能提升了约17个百分点。在路径追踪任务中，该模型以56.7%的得分，领先于GPT-5.4的46.5%和Gemini-3-Flash的41.4%，优势同样明显。

论文也诚实地指出：“所有前沿模型在拓扑推理任务上均表现欠佳，说明多模态大模型的推理能力仍有相当大的提升空间。”

以下是论文展示的几个定性分析示例：

当前局限与未来发展方向

论文并未回避当前模型的几个已知局限性。

首先，模型需要明确的“触发词”才会启用视觉原语机制，尚不能自主判断何时该使用这种“用手指点”的思考方式。其次，受输入分辨率限制，在极细粒度的视觉场景中，视觉原语的位置精度偶尔会不足。团队认为，与现有高分辨率感知方案结合是自然的下一步。最后，利用点坐标解决复杂拓扑推理问题，其跨场景的泛化能力目前仍然有限。