中科院沈阳自动化所先看图后思考提升视觉问答诚实性

时间：2026-06-23 11:20

针对多模态大模型训练中的“快捷路径”问题，中科院沈阳自动化所与国科大提出ViGOS框架，将回答拆分为图片描述、推理和答案，由双老师分段督导。实验表明，该框架有效降低特权答案泄露率，显著提升视觉遵从性与诚实性。

这项研究源自中国科学院沈阳自动化研究所机器人与智能系统国家重点实验室，中国科学院大学也参与了相关工作。论文以 arXiv 预印本的形式于 2026 年 6 月 17 日发布，编号为 arXiv:2606.19120。

一个让 AI 出现“视觉幻觉”的关键训练误区

想象一下，你雇佣了一位新助理，让他帮你回答问题。你给他看一张照片，询问他照片中有什么。但在他回答之前，你悄悄将正确答案贴在了他的额头上。他当然能回答正确——但他究竟是真正“看”了照片，还是仅仅读取了额头上的答案？

这个比喻，恰好揭示了当前主流“多模态大语言模型”训练方式所面临的困境。这类 AI 在训练过程中，常采用一种名为“在线自蒸馏”的技术。简单来说，就是让模型用自己的答案进行练习，同时利用一个“拥有特权的自身版本”提供密集的逐词修正信号。这个特权版 AI 能够提前知晓标准答案。这种设计在纯文本推理任务中效果出色，但一旦引入图像信息，问题便随之而来。

当 AI 撰写推理过程时，那个“特权老师”已经掌握了正确答案，它会持续利用答案来引导每个词汇的生成方向。最终，AI 学会的是“如何撰写一段能与已知答案完美自洽的推理过程”，而非“如何真正理解图像内容并基于此进行推理”。这就像一名学生考试前已知答案，然后倒推出一个看似头头是道的解题步骤——虽然漂亮，但却不诚实。

研究团队将这一问题命名为“快捷路径”（Shortcut Pathway）：AI 找到了一条绕过图像的捷径，直接利用文本答案来驱动推理，导致其对图像内容的依赖度逐渐减弱。这在日常问答中或许不显著，但一旦遇到“图像内容与常识相悖”的情形，AI 便会暴露本质——它会依据常识或已知答案来回应，而不是真正基于图像内容发言。

为了解决这一难题，研究团队提出了一个名为 **ViGOS**（Visual Grounding On-Policy Self-Distillation，即视觉锚定的在线自蒸馏）的全新训练框架。其核心思路非常直白：**先让 AI 描述图像，再让其基于描述进行推理**。两个阶段由不同的“老师”督导，从根本上切断了答案对视觉描述的干扰。

一、“特权老师”带来的双刃剑效应

要理解 ViGOS 为何能有效解决问题，首先需明确传统训练方式的运作机制及其症结所在。

在线自蒸馏的基本逻辑可以这样理解：一名学生正在做练习题，每写一个字，身旁都有一个“老师版的自己”在监督。这位老师事先知晓正确答案，并依据答案来判断学生每一步的书写是否恰当，提供密集的修正信号。学生是在自己生成的草稿上接受训练，而非照搬老师的范文——这避免了“练习与考试思路不一致”的问题。

对于纯文本推理任务，这种设计很自然：知道答案的老师引导学生逐步将推理逻辑写正确，这本身就是一种合理的教学方式。文本推理的所有信息均来自题目本身，老师知晓答案，从而能在每一步告诉学生“这个方向正确，那个方向错误”。

然而，多模态 AI 的情况截然不同。这类 AI 同时接收图像和文本两种输入，而文本往往比图像“更容易捕捉”——毕竟，文本是精确、线性的，而图像则是模糊、多义的。当一个已经知晓正确答案的老师在一旁紧盯时，AI 很容易学会：我只需在推理中顺着答案的方向写即可，无需真正仔细分析图像内容。

为了量化这个问题，研究团队设计了一个名为“特权答案泄露率”（PALR，Privileged Answer Leakage Rate）的诊断指标。该指标的工作原理很直观：固定一段 AI 生成的回答，然后分别使用“知道正确答案的老师”和“用错误答案替换后的老师”为每个词汇打分。如果两者差距显著，则说明老师的修正信号主要源于已知答案，而非图像内容。同时，还测量“更换一张不相关图像后打分的变化程度”，以衡量图像对修正信号的贡献。

检测结果令人警醒。在 3B 参数规模的模型上，推理和答案部分的 PALR 高达 17.26%；在 7B 规模模型上，更是飙升至 26.01%。换言之，在此规模下，超过四分之一的密集修正信号是由答案主导，而非图像主导。这意味着 AI 正在利用答案反向构建推理，而非依据图像正向推导答案。

二、将“先看图、后推理”原则融入训练流程

ViGOS 的解决思路可以用一个厨师培训的比喻来理解。

传统的厨师培训方式是：学员在烹饪时，旁边有一位了解最终菜谱口味的大厨在监督，从第一步加盐到最后出锅，大厨都会根据“我知道最后应该是什么味道”来告诉学员每一步的对错。问题是，学员可能根本没有认真品尝食材的原味，只是学会了“如何做出听起来符合大厨预期的菜品”。

ViGOS 的做法是将烹饪过程拆分为两个阶段：**第一阶段是食材鉴别**，学员先认真观察和描述每种食材的颜色、气味、质地——此阶段，大厨不在场，也不告知学员最终要做什么菜，只有一位只看食材、不管菜谱的“感官老师”在旁，确保学员真正描述食材本身。**第二阶段才是烹饪推理**，基于学员自己写下的食材描述，了解菜谱的大厨才出现，引导学员完成后续烹饪步骤和最终判断。

对应到 AI 训练，ViGOS 的具体做法是：

AI 生成的每一段回答被拆分为三个部分——图像描述（d）、推理过程（r）和最终答案（a）。AI 被要求使用固定格式来组织回答：先用 `` 标签编写图像描述，再用 `` 标签编写推理过程，最后给出答案。这三段由不同的“老师”来督导。

在描述阶段，监督 AI 的是一个**纯图像感知老师**。这位老师的特殊之处在于，它打分时只能看到图像本身，看不到题目文字，更看不到正确答案。它的唯一职责是确保 AI 在描述阶段确实在描述图像，而非敷衍地往答案方向凑。

在推理和答案阶段，监督 AI 的才是**特权推理老师**。这位老师能看到正确答案，引导 AI 基于图像描述完成推理。关键在于，此时图像描述已由 AI 自己写在前面，特权老师在引导推理时，也是基于已有描述进行操作，而非从一开始就绕开图像。

此外，还有第三种老师——**参考老师**。这位老师仅在 AI 生成的回答格式出错时才介入，例如 AI 没有写标签、描述段落为空、或答案无法解析时。参考老师的作用是将格式拉回正轨，而非成为默认的主力老师。之所以需要此设计，是因为如果格式出错，前两个老师的分工便失效了，没有可靠的“描述段落”和“推理段落”可供区分，因此需要一个兜底机制。

这种分段督导的设计，在形式上改变了答案进入训练信号的时机：在原始设计中，答案从第一个词开始就影响每一步；在 ViGOS 中，答案仅在图像描述完成后才参与指导。研究团队用一个简单的路径公式来描述这一差异——原始是“答案→推理→答案”，ViGOS 是“图像→描述→推理→答案”。

三、PALR 诊断数据揭示了什么

使用上述 PALR 指标来衡量，ViGOS 的效果非常清晰。

在 3B 规模模型上，原始方法的推理和答案段落 PALR 为 17.26%，ViGOS 将其压低至 6.33%；在 7B 规模模型上，从 26.01% 降至 7.56%。全段回答的 PALR 也分别从 5.59% 和 7.55% 下降至 3.07% 和 3.72%。

描述段落的 PALR 在 ViGOS 下为 0.00%——这是“由构造决定”的结果，因为描述段落的监督老师根本看不到答案，因此在此诊断中，答案对描述段落的修正信号贡献为零。

研究团队还进行了一项有趣的交叉验证。ViLP（一个测试 AI 在图像内容与常识矛盾时是否仍然遵从图像的基准数据集）的得分，在 7B 规模模型上，原始方法得到的分数远低于 3B 模型（42.00% vs. 59.50%），说明更大的 7B 模型反而更依赖常识捷径，对图像的实际遵从度更差。而 PALR 诊断也显示，7B 模型在原始方法下的推理段落 PALR（26.01%）远高于 3B（17.26%）。这两个独立的测量工具指向同一个结论：PALR 越高的模型，在图像与常识冲突时越容易跟着常识走。

研究团队还进行了一项词级别的可视化分析。以一道“硬币罐内容物统计”题为例，图像中有一张表格，分别列出 11 枚银币、36 枚金币和 16 枚其他硬币，问总数是多少。ViGOS 训练的模型在描述段落中，“table”（表格）、“two columns”（两列）、“11”、“36”、“16”这些词都变为以图像驱动为主的蓝色词——说明这些数字和结构信息的生成主要依赖图像内容，而非答案暗示。而在推理段落中，11+36+16 的加法计算过程和最终答案“63”附近则出现了以答案驱动为主的红色词——说明在视觉证据已明确的前提下，答案引导帮助 AI 完成了计算和格式输出。这种“描述蓝、计算红”的模式，正是 ViGOS 设计的预期效果。

四、真实考场上的成绩单

研究团队在两种规模（3B 和 7B 参数）的 Qwen2.5-VL 模型上进行了实验，对比了三种方案：原始基线模型、普通在线自蒸馏（OPSD）和 ViGOS。训练数据和计算预算完全相同，仅训练方法不同。

评测基准涵盖了广泛的多模态推理场景。MM-Vet 考察综合视觉-语言能力，包括识别、OCR、空间理解和语言生成；MMMU 和 MMMU-Pro 测试专家级跨学科多模态推理，后者相比前者更强调真正的图像理解，减少了文字推理走捷径的空间；MathVerse 和 MathVista 考察视觉数学推理，需要模型真正理解几何图形、图表和数学公式；MMSI、RealWorldQA 和 CV-Bench 则专注于空间关系、计数、深度判断等视觉接地性能力。

从整体数字来看，ViGOS 对原始基线的提升是全面的。3B 模型的 Pass@5 平均分（五次采样中至少有一次正确的比例）从 60.86% 提升至 71.97%，Avg@5 平均分（五次采样的平均正确率）从 27.91% 提升至 41.35%。7B 模型的 Pass@5 从 68.13% 提升至 75.60%，Avg@5 从 45.38% 提升至 50.99%。

将 ViGOS 与普通 OPSD 相比，差距没那么悬殊，但有一些值得关注的模式。在 3B 模型上，ViGOS 在 Pass@5 上略低于 OPSD（两者相差不到两个百分点），但在 Avg@5 上略好。在 7B 模型上，ViGOS 在 Pass@5 上超过了 OPSD，Avg@5 基本相当。最明显的差距出现在需要具体图像理解的任务上：RealWorldQA、MMSI、CV-Bench、MathVista 这几个需要真正“看懂图”的基准，ViGOS 在 3B 模型上均优于普通 OPSD。

Pass@5 和 Avg@5 这两个指标的意义值得解释一下。Pass@5 就像考试允许交五份答卷、取其中最好的一份算分，它衡量的是“模型偶尔能想到正确答案”的能力。Avg@5 则是五份答卷的平均分，衡量的是“模型每次都能稳定给出正确答案”的能力。ViGOS 在 Avg@5 上的优势意味着，它的答案不是偶然正确，而是更稳定地依赖图像内容进行推理。

五、真正的考验：图像和常识冲突时，AI 听谁的

上述八个基准主要测试 AI 在正常情况下的表现，而 ViLP 才是专门为“图像与常识冲突”设计的压力测试。

ViLP 的测试逻辑是这样的：给 AI 展示一张图，图中的内容违反了某个常见认知，然后问 AI 一个需要看图回答的问题，同时在题目中提示了那个常见认知。例如，问题说“自由女神像在纽约”，图片却展示了自由女神像出现在巴黎（背景是埃菲尔铁塔），问 AI“根据图片，自由女神像在哪个城市”。正确答案是“巴黎”，因为题目明确要求“根据图片”回答。

ViLP 有两个核心指标：Score 衡量 AI 在这些冲突问题上的正确率（能否真的遵从图像），Prior 衡量 AI 在非冲突问题上的正确率（有没有因过度矫正而抛弃常识）。理想的模型应该是 Score 高、Prior 也高——能在需要图像时遵从图像，但不会连正常常识都不用了。

实验结果上，ViGOS 在所有 ViLP 测试设置中都取得了最高的 Score。以 7B 模型为例，原始基线的 ViLP-F（带有额外事实提示的版本）Score 仅为 42.00%，普通 OPSD 提升至 58.00%，而 ViGOS 达到 62.67%。ViLP-P（纯问题版本）上，原始基线 37.00%、OPSD 57.00%、ViGOS 61.67%。Prior 指标方面，ViGOS 在 7B 上的两个设置分别是 97.00 和 91.67，与 OPSD 基本持平或完全相同，说明 ViGOS 没有因强调图像而损失常识推理能力。

从训练过程的动态变化来看，研究团队绘制了训练步数与 ViLP 分数的关系图。在训练开始时，普通 OPSD 和 ViGOS 的起点相同。训练开始后，两者的 Prior 都保持高位，但 Score 的走向截然不同：普通 OPSD 先升后降，到 100 步时稳定在约 0.63；ViGOS 持续上升，到 100 步时达到约 0.71。这个动态模式说明，普通 OPSD 在训练过程中先帮助模型学到了一些图像理解能力，但随后答案驱动的训练信号逐渐主导，将模型往捷径方向拉；而 ViGOS 的分段设计持续保护了图像感知阶段不受答案污染，图像遵从能力在训练过程中稳定积累。

六、拆开每个零件检验

为了弄清楚 ViGOS 的哪个部分最关键，研究团队进行了系统的消融实验——就像把一辆车逐个拆掉零件，看少了哪个零件车就开不动了。

去掉感知损失（即不再用纯图像老师来督导描述段落）之后，ViLP Score 从 69.84 降至 67.58，CV-Bench 也下降了。这说明感知老师的作用是实质性的：如果描述阶段没有被“只能看图”的老师约束，那么描述内容就有可能受到题目文字和答案的影响，视觉锚定效果就会减弱。

去掉推理损失（即不再用特权推理老师来督导推理和答案段落）之后，整体 Pass@5 和 CV-Bench 都下降了，但 ViLP Score 仅小幅下降。这个模式很有意思：少了推理老师，模型在标准任务上的表现下降（毕竟标准任务需要答案引导来学习推理）；但 ViLP 上的下降不如预期大——因为没有答案引导的推理老师，答案对模型的“绑架”也随之减弱，模型某种程度上更依赖图像，所以对常识偏差的抵抗力没有明显变差。这个现象恰恰印证了核心论点：答案引导是有用的，但需要被放在正确的位置上，而不是贯穿整个回答流程。

关于参考老师的设计，实验比较了三种方案：用逆向 KL 散度（ViGOS 采用的方式）、用正向 KL 散度，以及完全去掉参考老师。完全去掉参考老师的影响最大，ViLP Score 从 69.84 骤降至 63.25。这说明格式兜底机制是必要的：当 AI 生成了格式错误的回答时，如果没有参考老师介入，感知老师和推理老师的分工就会因缺乏可靠的段落边界而混乱，结果就是特权答案又通过混乱的段落分配渗入了本应被保护的描述阶段。比较逆向 KL 和正向 KL，前者在 CV-Bench 和 ViLP 上都略好，因此 ViGOS 采用逆向 KL 作为参考老师的损失函数。参考老师的定位是“格式急救室”，而不是“主治医生”，这一点通过上述实验得到了确认。

七、同一道题同一张答卷

一个合理的质疑是：ViGOS 要求 AI 先写图像描述，这个格式要求本身是否就让 AI 更认真地看图了，与训练方式无关？

研究团队用一个“同一格式，不同方法”的对照实验来回答这个问题。他们让原始基线模型、普通 OPSD 和 ViGOS 都使用同一种包含图像描述的输出格式，然后比较三者的表现。

结果很清楚地说明了问题。加上描述格式要求后，原始基线模型的表现确实有所提升——在 MMSI、RealWorldQA、CV-Bench 等几个以视觉为核心的基准上，零样本基线已达到不错水平，说明格式本身确实有一定的促进作用。但关键在于，普通 OPSD 在加上此格式后，表现反而比没有格式要求的原始基线还要差：在 MMSI 上从 66.40/23.88 降至 58.00/20.90，在 RealWorldQA 上从 84.05/53.31 降至 83.92/46.54，Avg@5 的下降尤为明显。

这个反直觉的现象说明：如果强制格式要求，但训练时的密集修正信号仍然是答案条件化的，那么模型反而会学到一种“形似视觉描述、实为向答案靠拢”的文本策略——格式对了，但内容的视觉依据并未变强，甚至在 Avg@5 这个衡量稳定性的指标上更差了。ViGOS 则在使用相同格式的情况下，在 Pass@5 和 Avg@5 上都超过了原始基线和 OPSD，并在 ViLP Score 上同样取得最佳结果。由此，研究团队得出结论：ViGOS 的效果主要来自分段监督的设计，而非格式提示本身。

八、五个“AI 被常识带偏”的真实案例

研究团队在 ViLP 的定性分析中展示了五个具体的错误案例，清晰地说明了两种训练方法的行为差异。

案例一，地标位置问题：图片展示自由女神像出现在巴黎背景下（埃菲尔铁塔清晰可见），题目提示“自由女神像在纽约”，问 AI 图中自由女神像在哪个城市。OPSD 的推理注意到了巴黎的视觉特征，但最终判断“题目是在考真实位置，所以答案是 NYC”。ViGOS 则在描述中明确写出“背景可见城市景观及一座塔和一座桥，具有巴黎的特征，埃菲尔铁塔清晰可见”，然后在推理中依据描述得出“Paris”。

案例二，文字冲突问题：图片上显示“1 km = 200 m”，题目提示“1公里等于1000米”，问 AI 图中显示的换算结果是多少。OPSD 读出了图片上的等式，但认为它是错的，最终答案是“1000”。ViGOS 描述了图片上的视觉方程式，认识到题目问的是“图片显示的结果”，答案是“200”。

案例三，动物大小先验：图片中大象明显比长颈鹿高，题目提示“长颈鹿很高”，问图中在河边喝水的最高动物是哪个。OPSD 依据“长颈鹿颈部比象鼻更长”的先验推断长颈鹿更高，答案是“Giraffe”。ViGOS 在描述中注意到“大象在左，长颈鹿在右，两者都在喝水”，在推理中根据图中两者的相对大小判断“大象看起来明显更高”，答案是“Elephant”。

案例四，生物先验问题：图片展示了一条鱼的解剖图，突出显示了类似人类肺部的结构，题目提示“鳃让鱼能在水下呼吸”，问图中帮助鱼呼吸的是什么。OPSD 注意到了图片里的肺部结构，但最终判断图片是在“模拟鳃的功能”，答案是“Gills”。ViGOS 描述了“鱼体内明显的肺部分支结构”，推理中指出“虽然题目提到了鳃，但图片中突出显示的是肺部”，答案是“Lungs”。

案例五，工具使用先验：图片中一只啄木鸟正在用手锯切割树桩，题目提示“啄木鸟通常用嘴寻找虫子”，问图中啄木鸟用什么来寻找虫子。OPSD 认为图片是“不寻常的人工设定”，啄木鸟通常用嘴，所以答案是“Beaks”。ViGOS 描述了“啄木鸟用手锯切入树桩，树桩里有大量虫子”，推理得出“图中使用的工具是锯”，答案是“Saw”。

这五个案例呈现了一个一致的规律：OPSD 通常能在推理中提到关键的视觉线索，但最终答案仍然被常识或题目提示所主导；ViGOS 通过先将视觉证据写成描述，让这些证据在推理阶段已作为“既成事实”存在于上下文中，从而在最终决策时给了图像更重的权重。

说到底，ViGOS 解决的问题看起来是个技术细节，但背后触及了一个更深层的问题：当 AI 同时接收多种类型的信息时，它是否在真正地“用眼睛看”，还是只在用已知的结论来填充一段听起来有理有据的分析？

目前的研究展示了一个积极的方向：通过在训练时给“看图”和“推理”两个阶段分配不同的监督信号，可以在不大幅牺牲整体性能的前提下，显著提升 AI 在图像与常识冲突时对图像的遵从度。这对于未来的实际应用非常重要——无论是医学影像诊断、自动驾驶场景理解，还是读图辅助决策，AI 都需要真正看懂图片，而不是用常识来凑数。

当然，研究团队也坦承了现有局限：AI 生成的图像描述可能不完整或不准确；纯图像感知老师在没有题目文字的情况下可能生成偏泛化的描述；训练时需要同时运行多个“老师”版本的模型，计算开销增加。这些都是未来需要继续改进的方向。

Q&A

Q1：ViGOS 和普通的在线自蒸馏训练方法有什么区别？

A：普通在线自蒸馏使用一个知道正确答案的“特权老师”来监督 AI 回答的每一个词，包括描述图片的部分，导致 AI 在写描述时就受到答案影响，学会了绕开图片走捷径。ViGOS 将回答拆分为“图片描述”和“推理答案”两段，前者仅使用一个不知道答案、只能看图的感知老师来监督，后者才使用特权老师，从而保证图片描述阶段不受答案污染。

Q2：PALR（特权答案泄露率）是什么，如何理解其数值？

A：PALR 是研究团队设计的一个诊断指标，用于测量 AI 训练时的修正信号中有多少比例来自已知答案而非图片内容。检测方法是固定 AI 生成的回答，然后分别用正确答案和错误答案来给每个词打分，差距越大说明答案影响越大。普通在线自蒸馏在 7B 模型上推理段落的 PALR 高达 26%，ViGOS 将其压低至约 7.5%，说明答案对推理段落的“绑架”程度大幅降低。

Q3：ViGOS 在图片与常识冲突的任务上为何比普通方法更好？

A：普通在线自蒸馏训练时，答案从一开始就影响模型的每一步生成，模型学会了写出“与答案自洽的推理”，而非“基于图片的推理”。当图片和常识冲突时，模型往往会选择常识。ViGOS 通过强制先生成纯图片描述，并使用只看图片的老师来监督这一步，让图片内容作为“已写明的事实”进入后续推理上下文，在最终决策时给了图片更高的权重，因此在图片与常识矛盾的测试中表现更好。

来源：https://www.163.com/dy/article/L02CTR170511DTVV.html

中科院