破解AI看视频睁眼瞎困境训练机器学会挑剔

时间：2026-07-01 11:04

这项研究由新加坡南洋理工大学（NTU Singapore）、明尼苏达大学双城分校（University of Minnesota, Twin Cities）和蔚山科学技术院（UNIST）共同完成，2026年6月25日以预印本形式发布在arXiv平台，论文编号为arXiv:2606 26904v1。有

这项研究由新加坡南洋理工大学（NTU Singapore）、明尼苏达大学双城分校（University of Minnesota, Twin Cities）和蔚山科学技术院（UNIST）共同完成，2026年6月25日以预印本形式发布在arXiv平台，论文编号为arXiv:2606.26904v1。有兴趣的读者可以根据这个编号去查阅完整版。

先讲个场景。假设你是交通执法人员，需要用行车记录仪的视频来认定哪辆车闯了红灯、车牌号是多少。但麻烦来了——视频里有几帧因为雨天雨刮器抖动而模糊不清，有几帧被路边大卡车挡住了关键位置，还有几帧因为夜间对向来车的大灯直射而惨白一片。这时候你会怎么做？

一个细心的人会本能地跳过那些模糊或被遮挡的画面，只盯着清晰可辨的帧，把证据建立在看得清楚的图像上。但麻烦的是，当前绝大多数视频理解AI系统恰恰缺乏这种“挑剔”的能力——它们会把每一帧画面都当作同等重要的证据，不管这帧画面是清晰还是一团模糊。论文把这个问题称为“盲目信任问题”（Blind Trust Problem）。

研究团队发现，在真实世界的测试场景中，一些最先进的视频推理AI模型，在遭遇运动模糊、强光眩晕或物体遮挡等常见干扰时，准确率会骤降15到30个百分点——而且这些模型对自己的“看错”完全不知情，依然自信地给出答案。为了从根本上解决这个缺陷，研究团队提出了一个名为“Robust-TO”的全新框架，核心思路是让AI学会像那位细心的执法人员一样，先判断每一帧画面值不值得信任，再做推理。

一、当AI遇到“睁眼瞎”：什么是盲目信任问题？

那位执法人员的故事，其实已经把这个问题的严重性说得很清楚了。现有的视频AI就像一个被蒙上眼睛后随机打开的人：不管眼前的画面是高清商场的监控，还是大雾天里模糊的录像，它都一视同仁，完全不会去判断“这个画面到底可不可信”。

这种设计在大多数日常场景下问题不大，但一旦进入真实世界的高风险应用，就成了致命弱点。研究团队在UrbanVideo-Bench这个专门面向城市场景视频理解的基准测试上做了验证，结果触目惊心：当视频被施加了五种常见干扰——运动模糊（比如行驶车辆拍摄的抖动画面）、高斯噪点（低光环境下的颗粒感）、强光眩晕（迎面车灯或阳光直射）、遮挡（路人或障碍物挡住关键区域）、低光照（夜间或昏暗室内）——之后，主流的视频推理模型准确率平均下降了15到30个百分点。

更可怕的是，这些模型给出错误答案时往往还“非常自信”，它们的“自我报告置信度”几乎没有变化，仿佛什么都没发生。在法庭调查、安防监控或自动驾驶事故复盘这类场景里，这种“沉默的失败”比直接报错更危险——因为使用者根本不知道AI已经在胡说八道。

二、Robust-TO的核心思路：先当“质检员”，再当“分析师”

Robust-TO框架的设计哲学，其实就是那位细心执法人员的工作方式。用侦探破案来类比最合适：一个好侦探在正式分析证据之前，会先把所有线索按照可信度分类——哪些是清晰的现场照片，哪些是模糊的目击者陈述，哪些是可能被污染的物证。然后，他会把最可靠的证据放在最重要的位置，用它来构建核心结论，再用次可靠的证据来验证和补充。对于那些根本靠不住的线索，除非别无选择，否则根本不会考虑。

Robust-TO就是按照这个逻辑设计的，整个推理过程分为三个环环相扣的阶段。

第一阶段：“质量画像与帧选择”

这相当于侦探对现场证据做初步分类。研究团队开发了一个叫assess_quality的“无参数画质评估工具”——所谓无参数，就是它不需要专门训练，完全依靠图像本身的信号来判断画质好坏，就像用肉眼看照片是否清晰一样简单。

具体来说，这个工具从三个维度来评估每一帧的“可信度”。第一个维度是模糊度：通过计算图像的“拉普拉斯方差”（可以理解为画面边缘的清晰程度）来判断，画面越模糊数值越低，就像摘下眼镜后看到的世界——边缘都变成了朦胧的渐变色，细节全部消失。第二个维度是亮度偏差：测量画面平均亮度是否远离正常值，太暗（比如夜间录像）或太亮（比如强光直射）都会得到较高的“干扰分数”。第三个维度是遮挡程度：通过检测画面中有效边缘信息的占比来估计，被遮挡的画面缺乏丰富的结构信息，就像一张大部分被黑色油漆涂掉的照片。

这三个维度综合起来，会给每一帧打出一个“干扰分数”——分数越高代表这帧越不可信。然后系统将这个分数与“该帧与当前问题的相关性”相乘，得到一个综合评分。打个比方：一帧非常清晰但拍的是路边树木的画面，不如一帧稍微有点模糊但正好拍到了目标车牌的画面有价值。只有那些既清晰又相关的帧，才会被筛选出来，进入“可信证据池”。这个筛选过程会把原本32帧的视频压缩到平均20.7帧，不仅减少了噪音，还把推理时间缩短了超过35%，同时准确率还提升了1.6个百分点。

第二阶段：“基于置信度的工具路由”

这个阶段相当于侦探根据线索性质选择对应的检测手段。一个案件往往涉及多个问题：嫌疑车辆是什么颜色？什么时候经过红灯区？车牌号是多少？每个问题对应不同的调查手段——颜色靠目击者，时间靠时间戳，车牌靠专业的车牌识别技术。把所有问题都交给同一种方法处理，低效且不准确。

Robust-TO的做法是先把原始问题拆解成多个“原子子问题”（Atomic Sub-queries），每个子问题只针对一种感知能力。比如“这段视频里有什么车，它们在哪里”是空间定位子问题，“这辆车在视频中怎么移动”是时间追踪子问题，“路牌上写了什么”是文字识别子问题。

接下来，系统会根据第一阶段得到的“主导干扰类型”，为每个子问题选择最合适的工具。系统有一个工具箱，里面包括：detect_objects（目标检测）、caption_frame（场景描述）、track_temporal（时序追踪）、recognize_action（动作识别）、read_text（文字识别）等专业工具，每个工具都有擅长的场景和弱点。

关键在于：当画面主要受运动模糊影响时，系统会倾向于用caption_frame而不是detect_objects——因为目标检测依赖清晰的边缘信息，模糊画面中边缘消失，检测效果会急剧下降，而场景描述对清晰度的要求相对更宽容；当画面主要被遮挡时，系统会用recognize_action代替track_temporal，因为追踪需要在连续帧间持续定位目标，一旦被遮挡就会丢失，而动作识别更关注整体行为模式。

每次工具调用结束后，会返回一个“结果加置信度”的配对——不只告诉你“发现了一辆白色轿车”，还会告诉你“这个发现有多可信”。这个置信度是两个因素的乘积：一是工具本身对这个结果有多确定（比如车牌识别工具对字符的识别置信度），二是输入帧的可信度（越清晰的帧，工具的输出越可信）。特别巧妙的是，在计算输入帧可信度时，系统采用了“最差三分之一帧”的保守策略——不取平均值，而是盯着最差的那批帧，防止几帧清晰的画面掩盖大量模糊帧的风险。

第三阶段：“基于可信度分级的视频推理”

这个阶段相当于侦探综合所有证据作出最终裁决。所有子问题的“结果加置信度”配对汇合后，系统把它们按置信度分为三档：高置信度（≥0.7且画面干扰<0.3）、中置信度（其余情况）、低置信度（<0.3或画面干扰>0.7）。

推理的优先级是：高置信度证据主导结论；中置信度证据仅在与高置信度结论一致时才被采纳；低置信度证据只能在完全没有更好证据时作为最后手段，并且最终答案会明确标注“剩余不确定性”。这个机制确保了：可靠的证据决定结论，不可靠的证据只能“附议”，绝不能推翻结论。

三、让AI通过“练习”变得更聪明：GRPO训练与奖励设计

仅仅有了这套流程还不够——系统里的“主控AI”（Host VLM）需要通过大量实践来学会何时该做什么。研究团队采用GRPO（群体相对策略优化）这个强化学习方法来训练它，简单说就是：让AI反复解决问题，做得好的给正面反馈，做得差的给负面反馈，在试错中学会更好的策略。

训练的奖励信号由四个部分组成。

第一部分是“正确性奖励”：答案对了加分，错了扣分，这是最直接的信号。

第二部分是“置信度成本奖励”：这是整个设计里最有创意的部分。逻辑是：高置信度的输出当然有价值，但获得高置信度往往需要调用昂贵的工具（比如track_temporal的计算成本是read_text的近三倍）。这个奖励项的公式是“置信度减去工具成本乘以惩罚系数”，它鼓励AI在花费最少计算资源的前提下获得最高的置信度。也就是，如果用一个便宜的工具就能得到可信结果，就别去调用昂贵的——这迫使AI学会“精打细算”。实验表明，去掉这个奖励项，准确率会下降2.3个百分点，因为AI会倾向于总是调用最贵的工具，导致在干扰画面上也强行使用高要求工具，产生自信但错误的答案。

第三部分是“子问题效率奖励”：这个奖励惩罚两种极端——把问题分解得太细（浪费工具调用次数）或者太粗（信息不完整）。研究团队用一个单独的“冻结”AI来预测最佳的子问题数量，然后用这个目标值约束主控AI。为什么要把这个估算AI“冻结”而不让它自己估算？实验给出了答案：如果让主控AI自己预测，它会学会作弊——刻意低报目标数量来降低实际子问题数量，相当于“改规则”来获得奖励，而不是真正提升问题分解质量。去掉这部分奖励，准确率下降2.1个百分点；用主控AI自估代替冻结估算，准确率下降1.2个百分点，奖励的方差还增大了2.3倍。

第四部分是“格式奖励”：确保AI输出符合规定的格式要求，比如工具调用使用JSON格式，这是整个流程能正常运行的基础。

四、在真实测试中的表现：数字背后的故事

研究团队在两个公开基准测试上全面验证了Robust-TO的效果。一个是专注于城市室外场景的UrbanVideo-Bench（包含LP地标位置、CF反事实推理、PE进度评估、AG动作生成四个任务），另一个是专注于室内空间推理的VSI-Bench（包含RDist相对距离、RDir相对方向、RP路线规划、AO出现顺序四个任务），共覆盖八个不同维度的视频理解能力。

在干净视频上，以Qwen3-VL-7B为基础模型的Robust-TO取得了56.4%的平均准确率，比谷歌的Gemini-2.5-Pro（46.2%）高出10.2个百分点，也比经过有监督微调的Qwen2.5-VL-7B（45.8%）高出10.6个百分点——要知道，Robust-TO的基础模型参数量只有70亿，但在某些任务上甚至超越了大得多的专有系统。八个任务中，Robust-TO在六个上取得了最佳成绩，尤其是在“出现顺序”（77.5%）和“地标位置”（61.1%）这两个需要整合时间跨度大的证据的任务上，优势最为显著。

在干扰视频上，Robust-TO的表现更令人印象深刻。面对五种不同类型的干扰，Robust-TO（Qwen3-VL-7B版本）的平均准确率为54.3%，比最强的开源基准Video-R1（Qwen3-VL-7B版本，48.5%）高出5.8个百分点，比Gemini-2.5-Pro（38.1%）高出16.2个百分点，比GPT-4o（32.2%）高出22.1个百分点。

更关键的是，Robust-TO从干净视频到干扰视频的准确率降幅，是所有被比较方法中最小的。用具体数字说话：Qwen2.5-VL-7B原版模型在干净视频上得26.9%，在干扰视频上跌至17.5%，跌幅高达9.4个百分点；同参数量的Robust-TO版本从50.6%跌至47.1%，跌幅只有3.5个百分点。这就是那个核心设计思想的价值：不是让AI在干净视频上无敌，而是让它在遇到“脏”视频时不会慌乱地胡说八道。

研究团队还通过一系列“控制变量”实验，逐一验证了每个设计决策的必要性。去掉帧选择器，准确率从50.7%跌到49.1%；将“最差三分之一帧”的保守置信度聚合改为全帧平均，准确率从50.7%跌到47.4%；去掉置信度信息，准确率从50.7%跌到43.1%，跌幅高达7.6个百分点——这说明“告诉AI每条证据有多可信”是整个框架中价值最大的设计。用自然语言描述工具的替代方案：将工具选择策略从“固定永远使用同一工具”改为“只根据问题语义选工具”，再到“同时考虑问题语义和画面干扰类型”的完整版，准确率分别提升了10.4和6.1个百分点。

五、一个真实案例：追查闯红灯的车辆

论文中有一个具体案例，可以把所有机制串联起来。问题是：“哪辆车在路口闯了红灯，它的车牌号是多少？”视频共24帧，同时遭受三种干扰：第4、5、22帧受到迎面车灯眩光影响，第7至9帧和第15至17帧有雨刮器运动模糊，第10至13帧被一辆卡车部分遮挡了路口视野。

普通视频AI的做法是把所有24帧一视同仁。它在第10至13帧中看到了模糊的卡车和路口，又受到眩光帧的干扰，最终得出“白色轿车，车牌B8C-394”的错误答案——这个车牌号在模糊帧中根本看不清楚，AI完全是“猜”的。

Robust-TO的做法则完全不同。质量评估阶段发现第10至13帧的遮挡分数在0.68到0.85之间，属于高干扰帧——即便这几帧与“路口”这个查询关键词有高达0.73至0.80的相似度，系统依然将它们从可信证据池中剔除。最终筛选出的是第14、18、19、3、6、20、21、23帧这八帧画面，都是干扰分数低于0.3的清晰帧。

接着，系统将问题分解为四个子问题：识别交通灯显示什么颜色、检测路口附近的车辆、追踪每辆车的运动轨迹、读取最近车辆的车牌文字。前三个子问题的工具调用结果置信度在0.528至0.785之间，属于中高置信度；第四个车牌读取任务在清晰帧上返回“B-7742-XK”，三帧中有两帧得到一致结果，置信度0.787，属于高置信度证据。

最终，系统整合了三条高置信度证据和一条中置信度证据，给出答案：“白色轿车闯了红灯，车牌B-7742-XK，由第14和第18帧的OCR结果确认（字符级置信度≥0.89），整体置信度0.72。”这正是正确答案。

六、尚待完善之处：诚实面对局限

研究团队在论文中坦率地指出了Robust-TO目前的四个局限。第一，画质评估的词汇表只覆盖了模糊、亮度偏差和遮挡三种干扰，对于对抗性攻击（故意制造的欺骗性干扰）、语义遮挡（无关物体挡住关键目标但画面本身清晰）或音视频不同步等情况，现有工具无法处理。第二，用于预测最佳子问题数量的“冻结估算AI”本身的能力，决定了整个分解策略的质量上限——如果这个AI对某类问题的判断不准，训练信号就会出现噪音。第三，帧筛选依赖主控AI的视觉编码器，如果编码器本身对某类干扰不够鲁棒，帧的“相关性排名”就可能失准。第四，在极度干扰的视频上，完整的质量评估加多工具路由加置信度加权合成流程，会带来超过正常5%的额外延迟，在需要实时决策的场景下可能成为瓶颈。

说实话，这篇论文最核心的贡献，是把一个以前被忽视的问题——“AI看视频时应该怎么对待质量差的画面”——变成了一个有系统解法的工程问题。那位细心的执法人员一直知道应该优先关注清晰画面，但直到Robust-TO，才有AI系统将这个直觉转化成了可以训练、可以量化、可以验证的技术方案。

当AI视频分析被越来越多地用于交通执法、安防监控、自动驾驶事故复盘等高风险场景时，“沉默的失败”是无法接受的。Robust-TO提供的思路——让每条证据都携带可信度标签，让推理的每一步都清楚自己在多大程度上依赖了可靠信息——或许是让AI从“不知道自己不知道”到“知道自己不确定”的一次重要跨越。

有兴趣深入了解技术细节的，可以通过arXiv编号2606.26904查阅完整论文，项目主页上也提供了更多演示案例。

Q&A

Q1：Robust-TO框架是如何判断视频中哪些帧可以信任的？
A：Robust-TO使用一个名为assess_quality的无参数画质评估工具，从模糊度、亮度偏差和遮挡程度三个维度对每一帧进行评分，生成一个“干扰分数”。分数越高代表该帧越不可信。系统随后将可信度分数与帧内容和问题的相关性相乘，综合两个维度筛选出既清晰又相关的帧作为后续推理的依据。

Q2：Robust-TO在处理模糊视频时比普通视频AI好多少？
A：在五种常见视频干扰类型（运动模糊、高斯噪点、眩光、遮挡、低光照）的测试中，Robust-TO（Qwen3-VL-7B版本）平均准确率为54.3%，比最强开源基准Video-R1高5.8个百分点，比Gemini-2.5-Pro高16.2个百分点，且从干净视频到干扰视频的准确率降幅是所有比较方法中最小的。

Q3：盲目信任问题（Blind Trust Problem）对实际应用有什么危害？
A：普通视频AI在遭遇模糊、遮挡等干扰时，准确率会骤降15到30个百分点，但模型本身的“自我报告置信度”几乎不变，依然自信地给出错误答案。这种“沉默的失败”在交通执法、安防监控、自动驾驶事故复盘等高风险场景中尤为危险，因为使用者根本不知道AI的输出已经不可靠。

来源：https://www.163.com/dy/article/L0N2KKCS0511DTVV.html

上一篇中科院自动化所揭示强化学习崩溃真相与解决方案 下一篇创智穹彻共建具身智能联合实验室签约

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

破解AI看视频睁眼瞎困境训练机器学会挑剔

一、当AI遇到“睁眼瞎”：什么是盲目信任问题？