四川大学等研究：AI视觉推理无需标准答案，能力持续增强

时间：2026-06-30 12:34

这项由四川大学牵头，联合西安交通大学、中国电信TeleAI和北京大学共同完成的研究，以预印本形式发布于2026年6月，论文编号为arXiv:2606 25319。感兴趣的读者可通过该编号在arXiv平台检索并查阅完整论文内容。从技术层面看，教会AI“看图说话”并非难事，但真正让AI懂得“看哪里”却是

这项由四川大学牵头，联合西安交通大学、中国电信TeleAI和北京大学共同完成的研究，以预印本形式发布于2026年6月，论文编号为arXiv:2606.25319。感兴趣的读者可通过该编号在arXiv平台检索并查阅完整论文内容。

从技术层面看，教会AI“看图说话”并非难事，但真正让AI懂得“看哪里”却是一项极具挑战性的课题。当你面对一张复杂的街景图，向AI提问：“图中右下角那个路牌写的是什么？”你期望AI不仅能够粗略扫描整张图片，更能将注意力精准聚焦于那块小小的路牌上。这种能力，学术界称之为“细粒度视觉推理”——即让AI在庞杂的视觉信息中精确定位关键细节，而非对整张图像进行笼统理解。

然而，要让AI掌握这项能力，代价通常极为高昂。目前的主流方法大致可以分为两类。一类是“有监督微调”，即通过海量带有标准答案的图文样本对AI进行训练，使其通过记忆来模仿解题。这种方式虽然效果不错，但准备标注数据需要大量人工投入，且AI在学习新知识后，往往容易“遗忘”原有的旧知识，出现所谓的“灾难性遗忘”现象。另一类是“强化学习”，它让AI自行通过试错来探索，借助奖惩机制引导其找到正确答案。这种方式更为灵活，但需要事先精心设计判断对错的规则，并且训练过程对计算资源的消耗极为惊人，动辄需要耗费数天的GPU算力。

正是看到了这两条路径的固有局限，研究团队提出了一个核心问题：是否有可能在既不需要大量标准答案标注，又无需耗费巨大计算资源进行强化学习的前提下，切实提升AI的视觉推理能力？他们给出的答案就是本文的核心框架——V-Zero。

一、老师与学生：一种名为“在线蒸馏”的训练方式

要深入理解V-Zero的核心思路，首先需要了解其依托的基础训练方法——“在策略蒸馏”（On-Policy Distillation，简称OPD）。

我们可以用一个老师教学生写作文的场景来类比。假设有一位水平很高的老师（教师模型），与一位正在学习的学生（学生模型）。传统的有监督微调，就像老师给学生提供一篇篇范文，要求学生照着抄写，直到能模仿得一模一样为止。而强化学习则好比老师布置题目，让学生自己摸索着写，写得好就给予表扬，写得差就进行扣分。

而在策略蒸馏走的是一条不同的路径：学生先自己动手写一篇作文，然后将这篇作文的每一个句子逐一拿给老师审阅，让老师逐字逐句地告诉学生：“在这一句之后，你应该如何接续”。老师给出的建议是基于学生实际写出的内容，而非预设的标准答案。这样一来，老师的指导始终贴近学生真实的思考过程，既精准又高效。

这种训练方式优势明显：老师提供的反馈极为密集，几乎覆盖了学生写作的每一步；同时，因为老师是在纠正学生实际犯下的错误，而不是让学生死记硬背范文，因此学生原有的能力不易被破坏。

研究团队对这种方式进行了深刻的理论梳理，发现OPD本质上可以理解为一种“无负例的停梯度对齐”——虽然听起来晦涩，但其背后的含义相当直观：老师和学生各自持有对同一问题的判断，训练的目标就是让学生的判断逐渐向老师的判断靠拢，在此过程中，老师的判断作为固定参照，只有学生在主动调整。“停梯度”意味着老师仅作为参照，不受学生的影响；“无负例”则表示该对齐过程没有明确的“反面案例”来告诉学生哪条路径是错误的。

正是这个“无负例”的特点，埋藏了一个重要的缺陷。

二、一个被忽视的漏洞：写完整篇才知道跑偏了

回到那个写作文的类比。如果学生在写第二段时就已经跑题——比如把一篇关于“交通安全”的题目写成了“旅游攻略”——那么即便老师逐句纠正，修改的也不过是这篇跑题作文中的每一个句子，而无法从整体层面告诉学生“整篇文章的方向就错了”。老师能做到的，是让这篇错误的作文写得更流畅，却无法阻止学生在错误的思路上越走越远。

这正是标准OPD的核心局限性：它在单个词语或单个句子的层面提供了极其密集的纠正，但缺乏一种机制来评估整篇“文章”（即整条推理链路）是否运行在正确的轨道上。研究团队将这一问题称为“缺少轨迹级别的判别能力”。

对于视觉推理而言，这个问题尤为棘手。如果AI在开始推理时就没有将注意力放在图片的关键区域，即使后续每一步推理都流畅进行，最终也可能得出错误的答案，而老师模型并没有一种简便的方式可以告诉学生：“你这整条思路，都是因为一开始就看错了地方”。

V-Zero的设计目标，正是为了填补这一漏洞。

三、正面图和反面图：用对比来评估推理的质量

V-Zero的核心创新，可以通过一个非常直观的比喻来理解：考官出题时，不仅给出一张图片，还会同时提供一张“有用的局部图”和一张“无关的局部图”，然后观察AI的推理是否真正依赖于有用的那部分视觉信息。

具体来说，在V-Zero的训练流程中，每道题目都需要准备三类视觉输入。第一类是完整的原始图片，这是学生模型在训练时通常看到的输入；第二类是“正向证据视图”，即从原图中裁剪出与问题直接相关的区域，例如，如果问题是“路牌上写的是什么”，那么正向证据视图就是路牌那一小块区域的放大图；第三类是“负向证据视图”，其生成方式是将原图缩小为原来的一半，然后从不包含路牌的区域随机截取一块同等大小的图片。

学生模型仅查看完整原图，自行生成推理文本。完成推理之后，老师模型会“回放”这段推理过程，但分别在三种不同的视觉条件下计算每一步推理的可信度。如果老师模型在观察到“正向证据”（路牌区域）时，对这段推理中每个词的预测概率远高于看到“负向证据”（无关区域）时的概率，就说明这段推理确实依赖于正确的视觉证据，推理是“有根据的”。反之，如果两者差别不大，则说明这段推理可能并未真正利用关键的视觉信息，其质量存疑。

这个差值就是所谓的“对比证据门控”信号。对于同一道题，学生模型会生成一组（例如8条）并行的推理链路，研究团队称之为“兄弟推理”。每条推理链路都会得到一个基于正负视图对比的可信度分数，然后在这组分数内部进行归一化处理，以此判断哪条链路比其他兄弟链路具有更强的视觉依据。

分数较高的链路会在蒸馏训练中获得更大的权重，这意味着老师模型会更努力地去纠正和引导这条推理路径；而分数较低的链路则会被相应地降低权重，以避免学生模型在错误的基础上继续加深偏差。蒸馏的目标始终是“正向证据”老师——即观察到了关键区域的老师所提供的指引，而非看到无关区域的老师。负向视图仅用于评分，不参与最终的学习目标设定。

整个流程完全不需要人工标注的文字答案。唯一需要准备的额外信息，就是训练数据中每道题对应的“关键区域”所在位置，这可以通过视觉标注工具以相对低廉的成本获得，而无需逐道题准备正确答案的文本。

四、训练流程：一套精密的流水线

整个V-Zero的训练算法是这样运转的。每一轮训练开始，先从训练数据集中取出一小批题目，对于每道题，学生模型基于完整的原始图片生成一组推理答案。与此同时，数据集中已经准备好了该题对应的关键区域裁剪（即正向证据），并按照前述方法生成了随机的负向证据裁剪。

接下来，针对每道题的每一条推理链路，分别计算老师模型在正向证据和负向证据条件下，对推理内容中每个词的预测概率，将两者相减得到每个词的证据差值，然后对整条链路中的所有词求取平均值，得到这条链路的“证据分数”。对同一道题的所有推理链路的证据分数进行组内归一化，得到每条链路的证据优势值，再通过一个截断操作将其转化为一个介于0到2之间的非负权重。

最后，以这些权重对所有链路的正向蒸馏损失进行加权平均，并通过梯度下降方法更新学生模型的参数。如此反复迭代，训练60步后即可得到最终的模型。

值得一提的是，V-Zero在推理阶段完全不需要任何额外的操作。学生模型依然只接收完整的原始图片和问题，按照常规方式生成答案，无需调用任何外部工具或执行任何裁剪操作。所有“观察局部区域”的能力，都在训练过程中内化到了模型的参数之中。

五、实验结果：数字背后的事实

研究团队在多个细粒度视觉推理基准测试上对V-Zero进行了系统性的评估，基础模型选用了阿里巴巴的Qwen3.5-4B，教师模型则选用Qwen3.5-27B。

在视觉推理能力的测试中，与Qwen3.5-4B基础模型相比，V-Zero在VStar测试集上提升了4.7个百分点，在HR-4K（超高分辨率4K图像理解任务）上提升了3.4个百分点，在HR-8K上提升了2.5个百分点，而在ZoomBench（需要精准定位微小目标的测试）上则提升了5.6个百分点。这四项测试的平均得分从75.3分提升到了79.2分，进步幅度超过了3个百分点。

更具说服力的是与其他专门针对视觉推理进行优化的方法的比较结果。DeepEyes、Pixel Reasoner、Thyme等系统均采用强化学习方式来提升视觉推理能力，它们使用了7B参数量的模型，但在HR-4K和HR-8K等测试上的得分均低于仅使用4B参数模型V-Zero的成绩。ZwZ（Zooming without Zooming）是与V-Zero最具可比性的方法，同样基于Qwen3系列模型，采用有监督微调方式，其4B版本在HR-4K上的得分为82.1，HR-8K为79.6；而V-Zero在HR-4K上达到了87.8，HR-8K达到了82.6，并且在ZoomBench上以57.8对52.5的比分大幅领先。在衡量模型泛化能力的MMStar测试中，V-Zero以74.4分的成绩超过了ZwZ的71.1分，表明V-Zero在提升视觉推理能力的同时，并未损失其通用理解能力。

在训练效率方面，V-Zero仅使用了8块RTX PRO 6000显卡，训练时间约为4.8小时，而ZwZ在8块H100显卡上需要大约1天，DeepEyes则需要大约2天。考虑到RTX PRO 6000的BF16计算吞吐量弱于H100，实际的算力差距只会更大。因此，研究团队保守估计，V-Zero比有监督微调方法快5倍以上，比强化学习方法快10倍以上。

六、拆解验证：每个设计都必不可少吗

研究团队还进行了一系列对照实验，以验证V-Zero各项设计决策的必要性。

在关于证据门控机制的消融实验中，对照方案包括“完全去掉门控”和“使用随机证据替代有意义的正负视图对”。当去掉门控后，四项视觉推理测试的平均得分从79.2下降到了78.0；而当使用随机证据替代后，平均得分更是大幅下滑到了72.5，甚至低于完全去掉门控的情况。这说明，不仅证据门控机制本身具有价值，而且用于对比的视觉证据必须是有意义的——随机对比不仅无益，反而会给学习过程引入噪声。

在教师模型规模的实验中，团队对比了9B和27B两种规模的教师模型。采用27B教师模型的整体表现更优，尤其在HR-4K（87.8对87.3）和ZoomBench（57.7对54.8）上优势明显，表明更大规模的教师模型能够提供质量更高的视觉推理引导。

在并行推理链路数量的实验中，将每道题生成的兄弟推理链路从4条增加到8条，四项测试的平均得分从78.1提升到了79.2，其中在ZoomBench上的提升尤为显著（54.1对57.7）。这说明在组内推理链路数量越多的情况下，对比证据门控的判别依据就越充分，尤其是在需要精准定位微小目标的任务上，效果更为明显。

在训练步数的实验中，模型在经历一定训练后整体持续提升，在第60步时达到了最佳的79.2平均分，但继续训练到第70步后，性能略有下滑，降至77.8。不同子任务的性能峰值出现在不同的训练步数，这表明更长的训练可能需要在不同能力之间进行权衡取舍。

七、AI的眼睛真的看对地方了吗

除了数字上的验证，研究团队还进行了直观的注意力可视化分析，展示了V-Zero与其他方法在处理细粒度推理题时，模型的“眼睛”究竟聚焦在图片的哪个位置。

在一道关于“图中右下角的装裱海报上写的是什么”的题目中，DeepEyes和ZwZ均未能在正确区域产生明显的注意力激活，而V-Zero和Qwen3.5-4B基础模型都能覆盖到正确区域，但V-Zero的激活强度更高，表明它更确信地聚焦在了正确位置。在另一道关于“图中路牌显示的限速是多少”的题目中，V-Zero在路牌区域产生了所有对比方法中最强的注意力激活。而在需要同时定位白色卡车和有轨电车并判断两者位置关系的题目中，V-Zero是唯一一个同时在两个目标上都产生了清晰注意力高亮的方法，其他方法要么只关注了一个目标，要么两个都没有准确定位。

这些可视化结果说明，V-Zero的训练效果不只反映在分数上的统计涨幅，而是切实改变了模型处理视觉信息的方式，使其真正学会了将注意力放到与问题相关的图片区域。

总的来说，V-Zero所做的工作，是在不需要昂贵人工标注、也不需要复杂强化学习机制的条件下，利用“正确区域的图”和“随机区域的图”这一对简单的训练信号，教会了AI模型在视觉推理时真正“看对地方”。这项研究的价值不仅体现在几个测试集上的数字提升，更在于它表明视觉信息本身就可以作为训练信号——我们不一定非得告诉AI“答案是什么”，只需要告诉AI“关键的视觉依据在哪里”，AI就能自己学会如何进行推理。

这对实际应用的潜在影响相当直接。构建细粒度视觉理解系统的成本，很大程度上来自于为每道题准备文字答案的标注工作。如果标注者只需画出关键区域的边框，而不需要逐道题撰写参考答案，准备训练数据的成本将大幅降低。与此同时，V-Zero在保持极高训练效率（不到5小时）的同时，模型的通用理解能力并未下降，这意味着在实际部署中无需担心“为了改善一项能力而损害另一项能力”的困境。

当然，这项工作也并非毫无局限。V-Zero的训练数据源自ZwZ项目整理的2.3万条高质量样本，训练过程中仍然需要关键区域的标注信息，只是不再需要文字答案。如何在完全无需任何人工标注的条件下实现同等效果，仍是一个值得探索的开放问题。此外，V-Zero当前的教师模型规模（27B）远大于学生模型（4B），在资源受限的环境下，能否使用更小的教师模型来保持同等效果，也是未来值得研究的方向。

有兴趣深入了解技术细节的读者，可通过arXiv编号2606.25319查阅完整论文，相关代码和数据集也将在论文所附的GitHub仓库中公开发布。

Q&A

Q1：V-Zero训练时需要准备哪些数据？

A：V-Zero训练不需要为每道题准备文字答案，只需要准备原始图片、对应的问题，以及标注出图中与问题相关的关键区域边框即可。在训练过程中，系统会自动从关键区域裁剪出正向证据图，并从图片的其他位置随机采样负向证据图。这两类图片仅在训练阶段使用，模型在推理时仅需查看完整的原始图片。

Q2：与强化学习方法相比，V-Zero的优势体现在哪里？

A：V-Zero的训练时间约为4.8小时，而强化学习方法如DeepEyes则需要约2天，保守估计速度相差10倍以上。此外，强化学习需要预先设计判断对错的规则，对于开放性的视觉问题很难精确定义；而V-Zero通过正负视觉证据的对比来评估推理质量，不依赖预设的答案验证规则。

Q3：V-Zero在提升视觉推理能力的同时，是否会影响模型的其他能力？

A：根据论文的实验结果，V-Zero在MMStar通用多模态理解测试上的得分为74.4，高于基础模型Qwen3.5-4B的71.8，这说明视觉推理能力的提升同时带来了通用理解能力的小幅改善，并未出现其他方法常见的“灾难性遗忘”现象，即提升某项能力时损害了其他已有能力。

来源：https://www.163.com/dy/article/L0KEEQTI0511DTVV.html

上一篇KAIKAKU研究揭示盲区：多个AI模型组团比单个更强？ 下一篇AI看图说话是否真实在看？中科院研究揭示真相

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。