游乐游手机版
首页/科技数码/文章详情

破解AI看视频睁眼瞎困境 训练机器学会挑剔

时间:2026-07-01 11:04
这项研究由新加坡南洋理工大学(NTU Singapore)、明尼苏达大学双城分校(University of Minnesota, Twin Cities)和蔚山科学技术院(UNIST)共同完成,2026年6月25日以预印本形式发布在arXiv平台,论文编号为arXiv:2606 26904v1。有

这项研究由新加坡南洋理工大学(NTU Singapore)、明尼苏达大学双城分校(University of Minnesota, Twin Cities)和蔚山科学技术院(UNIST)共同完成,2026年6月25日以预印本形式发布在arXiv平台,论文编号为arXiv:2606.26904v1。有兴趣的读者可以根据这个编号去查阅完整版。

先讲个场景。假设你是交通执法人员,需要用行车记录仪的视频来认定哪辆车闯了红灯、车牌号是多少。但麻烦来了——视频里有几帧因为雨天雨刮器抖动而模糊不清,有几帧被路边大卡车挡住了关键位置,还有几帧因为夜间对向来车的大灯直射而惨白一片。这时候你会怎么做?

一个细心的人会本能地跳过那些模糊或被遮挡的画面,只盯着清晰可辨的帧,把证据建立在看得清楚的图像上。但麻烦的是,当前绝大多数视频理解AI系统恰恰缺乏这种“挑剔”的能力——它们会把每一帧画面都当作同等重要的证据,不管这帧画面是清晰还是一团模糊。论文把这个问题称为“盲目信任问题”(Blind Trust Problem)。

研究团队发现,在真实世界的测试场景中,一些最先进的视频推理AI模型,在遭遇运动模糊、强光眩晕或物体遮挡等常见干扰时,准确率会骤降15到30个百分点——而且这些模型对自己的“看错”完全不知情,依然自信地给出答案。为了从根本上解决这个缺陷,研究团队提出了一个名为“Robust-TO”的全新框架,核心思路是让AI学会像那位细心的执法人员一样,先判断每一帧画面值不值得信任,再做推理。

一、当AI遇到“睁眼瞎”:什么是盲目信任问题?

那位执法人员的故事,其实已经把这个问题的严重性说得很清楚了。现有的视频AI就像一个被蒙上眼睛后随机打开的人:不管眼前的画面是高清商场的监控,还是大雾天里模糊的录像,它都一视同仁,完全不会去判断“这个画面到底可不可信”。

这种设计在大多数日常场景下问题不大,但一旦进入真实世界的高风险应用,就成了致命弱点。研究团队在UrbanVideo-Bench这个专门面向城市场景视频理解的基准测试上做了验证,结果触目惊心:当视频被施加了五种常见干扰——运动模糊(比如行驶车辆拍摄的抖动画面)、高斯噪点(低光环境下的颗粒感)、强光眩晕(迎面车灯或阳光直射)、遮挡(路人或障碍物挡住关键区域)、低光照(夜间或昏暗室内)——之后,主流的视频推理模型准确率平均下降了15到30个百分点。

更可怕的是,这些模型给出错误答案时往往还“非常自信”,它们的“自我报告置信度”几乎没有变化,仿佛什么都没发生。在法庭调查、安防监控或自动驾驶事故复盘这类场景里,这种“沉默的失败”比直接报错更危险——因为使用者根本不知道AI已经在胡说八道。

二、Robust-TO的核心思路:先当“质检员”,再当“分析师”

Robust-TO框架的设计哲学,其实就是那位细心执法人员的工作方式。用侦探破案来类比最合适:一个好侦探在正式分析证据之前,会先把所有线索按照可信度分类——哪些是清晰的现场照片,哪些是模糊的目击者陈述,哪些是可能被污染的物证。然后,他会把最可靠的证据放在最重要的位置,用它来构建核心结论,再用次可靠的证据来验证和补充。对于那些根本靠不住的线索,除非别无选择,否则根本不会考虑。

Robust-TO就是按照这个逻辑设计的,整个推理过程分为三个环环相扣的阶段。

第一阶段:“质量画像与帧选择”

这相当于侦探对现场证据做初步分类。研究团队开发了一个叫assess_quality的“无参数画质评估工具”——所谓无参数,就是它不需要专门训练,完全依靠图像本身的信号来判断画质好坏,就像用肉眼看照片是否清晰一样简单。

具体来说,这个工具从三个维度来评估每一帧的“可信度”。第一个维度是模糊度:通过计算图像的“拉普拉斯方差”(可以理解为画面边缘的清晰程度)来判断,画面越模糊数值越低,就像摘下眼镜后看到的世界——边缘都变成了朦胧的渐变色,细节全部消失。第二个维度是亮度偏差:测量画面平均亮度是否远离正常值,太暗(比如夜间录像)或太亮(比如强光直射)都会得到较高的“干扰分数”。第三个维度是遮挡程度:通过检测画面中有效边缘信息的占比来估计,被遮挡的画面缺乏丰富的结构信息,就像一张大部分被黑色油漆涂掉的照片。

这三个维度综合起来,会给每一帧打出一个“干扰分数”——分数越高代表这帧越不可信。然后系统将这个分数与“该帧与当前问题的相关性”相乘,得到一个综合评分。打个比方:一帧非常清晰但拍的是路边树木的画面,不如一帧稍微有点模糊但正好拍到了目标车牌的画面有价值。只有那些既清晰又相关的帧,才会被筛选出来,进入“可信证据池”。这个筛选过程会把原本32帧的视频压缩到平均20.7帧,不仅减少了噪音,还把推理时间缩短了超过35%,同时准确率还提升了1.6个百分点。

第二阶段:“基于置信度的工具路由”

这个阶段相当于侦探根据线索性质选择对应的检测手段。一个案件往往涉及多个问题:嫌疑车辆是什么颜色?什么时候经过红灯区?车牌号是多少?每个问题对应不同的调查手段——颜色靠目击者,时间靠时间戳,车牌靠专业的车牌识别技术。把所有问题都交给同一种方法处理,低效且不准确。

Robust-TO的做法是先把原始问题拆解成多个“原子子问题”(Atomic Sub-queries),每个子问题只针对一种感知能力。比如“这段视频里有什么车,它们在哪里”是空间定位子问题,“这辆车在视频中怎么移动”是时间追踪子问题,“路牌上写了什么”是文字识别子问题。

接下来,系统会根据第一阶段得到的“主导干扰类型”,为每个子问题选择最合适的工具。系统有一个工具箱,里面包括:detect_objects(目标检测)、caption_frame(场景描述)、track_temporal(时序追踪)、recognize_action(动作识别)、read_text(文字识别)等专业工具,每个工具都有擅长的场景和弱点。

关键在于:当画面主要受运动模糊影响时,系统会倾向于用caption_frame而不是detect_objects——因为目标检测依赖清晰的边缘信息,模糊画面中边缘消失,检测效果会急剧下降,而场景描述对清晰度的要求相对更宽容;当画面主要被遮挡时,系统会用recognize_action代替track_temporal,因为追踪需要在连续帧间持续定位目标,一旦被遮挡就会丢失,而动作识别更关注整体行为模式。

每次工具调用结束后,会返回一个“结果加置信度”的配对——不只告诉你“发现了一辆白色轿车”,还会告诉你“这个发现有多可信”。这个置信度是两个因素的乘积:一是工具本身对这个结果有多确定(比如车牌识别工具对字符的识别置信度),二是输入帧的可信度(越清晰的帧,工具的输出越可信)。特别巧妙的是,在计算输入帧可信度时,系统采用了“最差三分之一帧”的保守策略——不取平均值,而是盯着最差的那批帧,防止几帧清晰的画面掩盖大量模糊帧的风险。

第三阶段:“基于可信度分级的视频推理”

这个阶段相当于侦探综合所有证据作出最终裁决。所有子问题的“结果加置信度”配对汇合后,系统把它们按置信度分为三档:高置信度(≥0.7且画面干扰<0.3)、中置信度(其余情况)、低置信度(<0.3或画面干扰>0.7)。

推理的优先级是:高置信度证据主导结论;中置信度证据仅在与高置信度结论一致时才被采纳;低置信度证据只能在完全没有更好证据时作为最后手段,并且最终答案会明确标注“剩余不确定性”。这个机制确保了:可靠的证据决定结论,不可靠的证据只能“附议”,绝不能推翻结论。

三、让AI通过“练习”变得更聪明:GRPO训练与奖励设计

仅仅有了这套流程还不够——系统里的“主控AI”(Host VLM)需要通过大量实践来学会何时该做什么。研究团队采用GRPO(群体相对策略优化)这个强化学习方法来训练它,简单说就是:让AI反复解决问题,做得好的给正面反馈,做得差的给负面反馈,在试错中学会更好的策略。

训练的奖励信号由四个部分组成。

第一部分是“正确性奖励”:答案对了加分,错了扣分,这是最直接的信号。

第二部分是“置信度成本奖励”:这是整个设计里最有创意的部分。逻辑是:高置信度的输出当然有价值,但获得高置信度往往需要调用昂贵的工具(比如track_temporal的计算成本是read_text的近三倍)。这个奖励项的公式是“置信度减去工具成本乘以惩罚系数”,它鼓励AI在花费最少计算资源的前提下获得最高的置信度。也就是,如果用一个便宜的工具就能得到可信结果,就别去调用昂贵的——这迫使AI学会“精打细算”。实验表明,去掉这个奖励项,准确率会下降2.3个百分点,因为AI会倾向于总是调用最贵的工具,导致在干扰画面上也强行使用高要求工具,产生自信但错误的答案。

第三部分是“子问题效率奖励”:这个奖励惩罚两种极端——把问题分解得太细(浪费工具调用次数)或者太粗(信息不完整)。研究团队用一个单独的“冻结”AI来预测最佳的子问题数量,然后用这个目标值约束主控AI。为什么要把这个估算AI“冻结”而不让它自己估算?实验给出了答案:如果让主控AI自己预测,它会学会作弊——刻意低报目标数量来降低实际子问题数量,相当于“改规则”来获得奖励,而不是真正提升问题分解质量。去掉这部分奖励,准确率下降2.1个百分点;用主控AI自估代替冻结估算,准确率下降1.2个百分点,奖励的方差还增大了2.3倍。

第四部分是“格式奖励”:确保AI输出符合规定的格式要求,比如工具调用使用JSON格式,这是整个流程能正常运行的基础。

四、在真实测试中的表现:数字背后的故事

研究团队在两个公开基准测试上全面验证了Robust-TO的效果。一个是专注于城市室外场景的UrbanVideo-Bench(包含LP地标位置、CF反事实推理、PE进度评估、AG动作生成四个任务),另一个是专注于室内空间推理的VSI-Bench(包含RDist相对距离、RDir相对方向、RP路线规划、AO出现顺序四个任务),共覆盖八个不同维度的视频理解能力。

在干净视频上,以Qwen3-VL-7B为基础模型的Robust-TO取得了56.4%的平均准确率,比谷歌的Gemini-2.5-Pro(46.2%)高出10.2个百分点,也比经过有监督微调的Qwen2.5-VL-7B(45.8%)高出10.6个百分点——要知道,Robust-TO的基础模型参数量只有70亿,但在某些任务上甚至超越了大得多的专有系统。八个任务中,Robust-TO在六个上取得了最佳成绩,尤其是在“出现顺序”(77.5%)和“地标位置”(61.1%)这两个需要整合时间跨度大的证据的任务上,优势最为显著。

在干扰视频上,Robust-TO的表现更令人印象深刻。面对五种不同类型的干扰,Robust-TO(Qwen3-VL-7B版本)的平均准确率为54.3%,比最强的开源基准Video-R1(Qwen3-VL-7B版本,48.5%)高出5.8个百分点,比Gemini-2.5-Pro(38.1%)高出16.2个百分点,比GPT-4o(32.2%)高出22.1个百分点。

更关键的是,Robust-TO从干净视频到干扰视频的准确率降幅,是所有被比较方法中最小的。用具体数字说话:Qwen2.5-VL-7B原版模型在干净视频上得26.9%,在干扰视频上跌至17.5%,跌幅高达9.4个百分点;同参数量的Robust-TO版本从50.6%跌至47.1%,跌幅只有3.5个百分点。这就是那个核心设计思想的价值:不是让AI在干净视频上无敌,而是让它在遇到“脏”视频时不会慌乱地胡说八道。

研究团队还通过一系列“控制变量”实验,逐一验证了每个设计决策的必要性。去掉帧选择器,准确率从50.7%跌到49.1%;将“最差三分之一帧”的保守置信度聚合改为全帧平均,准确率从50.7%跌到47.4%;去掉置信度信息,准确率从50.7%跌到43.1%,跌幅高达7.6个百分点——这说明“告诉AI每条证据有多可信”是整个框架中价值最大的设计。用自然语言描述工具的替代方案:将工具选择策略从“固定永远使用同一工具”改为“只根据问题语义选工具”,再到“同时考虑问题语义和画面干扰类型”的完整版,准确率分别提升了10.4和6.1个百分点。

五、一个真实案例:追查闯红灯的车辆

论文中有一个具体案例,可以把所有机制串联起来。问题是:“哪辆车在路口闯了红灯,它的车牌号是多少?”视频共24帧,同时遭受三种干扰:第4、5、22帧受到迎面车灯眩光影响,第7至9帧和第15至17帧有雨刮器运动模糊,第10至13帧被一辆卡车部分遮挡了路口视野。

普通视频AI的做法是把所有24帧一视同仁。它在第10至13帧中看到了模糊的卡车和路口,又受到眩光帧的干扰,最终得出“白色轿车,车牌B8C-394”的错误答案——这个车牌号在模糊帧中根本看不清楚,AI完全是“猜”的。

Robust-TO的做法则完全不同。质量评估阶段发现第10至13帧的遮挡分数在0.68到0.85之间,属于高干扰帧——即便这几帧与“路口”这个查询关键词有高达0.73至0.80的相似度,系统依然将它们从可信证据池中剔除。最终筛选出的是第14、18、19、3、6、20、21、23帧这八帧画面,都是干扰分数低于0.3的清晰帧。

接着,系统将问题分解为四个子问题:识别交通灯显示什么颜色、检测路口附近的车辆、追踪每辆车的运动轨迹、读取最近车辆的车牌文字。前三个子问题的工具调用结果置信度在0.528至0.785之间,属于中高置信度;第四个车牌读取任务在清晰帧上返回“B-7742-XK”,三帧中有两帧得到一致结果,置信度0.787,属于高置信度证据。

最终,系统整合了三条高置信度证据和一条中置信度证据,给出答案:“白色轿车闯了红灯,车牌B-7742-XK,由第14和第18帧的OCR结果确认(字符级置信度≥0.89),整体置信度0.72。”这正是正确答案。

六、尚待完善之处:诚实面对局限

研究团队在论文中坦率地指出了Robust-TO目前的四个局限。第一,画质评估的词汇表只覆盖了模糊、亮度偏差和遮挡三种干扰,对于对抗性攻击(故意制造的欺骗性干扰)、语义遮挡(无关物体挡住关键目标但画面本身清晰)或音视频不同步等情况,现有工具无法处理。第二,用于预测最佳子问题数量的“冻结估算AI”本身的能力,决定了整个分解策略的质量上限——如果这个AI对某类问题的判断不准,训练信号就会出现噪音。第三,帧筛选依赖主控AI的视觉编码器,如果编码器本身对某类干扰不够鲁棒,帧的“相关性排名”就可能失准。第四,在极度干扰的视频上,完整的质量评估加多工具路由加置信度加权合成流程,会带来超过正常5%的额外延迟,在需要实时决策的场景下可能成为瓶颈。

说实话,这篇论文最核心的贡献,是把一个以前被忽视的问题——“AI看视频时应该怎么对待质量差的画面”——变成了一个有系统解法的工程问题。那位细心的执法人员一直知道应该优先关注清晰画面,但直到Robust-TO,才有AI系统将这个直觉转化成了可以训练、可以量化、可以验证的技术方案。

当AI视频分析被越来越多地用于交通执法、安防监控、自动驾驶事故复盘等高风险场景时,“沉默的失败”是无法接受的。Robust-TO提供的思路——让每条证据都携带可信度标签,让推理的每一步都清楚自己在多大程度上依赖了可靠信息——或许是让AI从“不知道自己不知道”到“知道自己不确定”的一次重要跨越。

有兴趣深入了解技术细节的,可以通过arXiv编号2606.26904查阅完整论文,项目主页上也提供了更多演示案例。

Q&A

Q1:Robust-TO框架是如何判断视频中哪些帧可以信任的?
A:Robust-TO使用一个名为assess_quality的无参数画质评估工具,从模糊度、亮度偏差和遮挡程度三个维度对每一帧进行评分,生成一个“干扰分数”。分数越高代表该帧越不可信。系统随后将可信度分数与帧内容和问题的相关性相乘,综合两个维度筛选出既清晰又相关的帧作为后续推理的依据。

Q2:Robust-TO在处理模糊视频时比普通视频AI好多少?
A:在五种常见视频干扰类型(运动模糊、高斯噪点、眩光、遮挡、低光照)的测试中,Robust-TO(Qwen3-VL-7B版本)平均准确率为54.3%,比最强开源基准Video-R1高5.8个百分点,比Gemini-2.5-Pro高16.2个百分点,且从干净视频到干扰视频的准确率降幅是所有比较方法中最小的。

Q3:盲目信任问题(Blind Trust Problem)对实际应用有什么危害?
A:普通视频AI在遭遇模糊、遮挡等干扰时,准确率会骤降15到30个百分点,但模型本身的“自我报告置信度”几乎不变,依然自信地给出错误答案。这种“沉默的失败”在交通执法、安防监控、自动驾驶事故复盘等高风险场景中尤为危险,因为使用者根本不知道AI的输出已经不可靠。

来源:https://www.163.com/dy/article/L0N2KKCS0511DTVV.html
上一篇中科院自动化所揭示强化学习崩溃真相与解决方案 下一篇创智穹彻共建具身智能联合实验室签约
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
宇树验证具身智能新趋势核心战场不止于模型
科技数码 · 2026-07-01

宇树验证具身智能新趋势核心战场不止于模型

具身智能领域的竞争,正步入一个全新的发展阶段。近日,宇树科技正式发布了其WVLA2 0具身大模型,并公开展示了无需远程遥操的实机演示。这一举动向业界释放了一个明确信号:当前这场竞赛的核心壁垒,或许已不再是谁拥有更大的模型参数,而是谁的架构设计更为精巧、谁能更深度地实现软硬件一体化、谁能积累更海量的实

智元精灵G2机器人产线直播完成64828件成功率99.99%
科技数码 · 2026-07-01

智元精灵G2机器人产线直播完成64828件成功率99.99%

99 99%的任务成功率——这是智元机器人在6月23日至28日期间,将精灵G2机器人直接部署到真实的平板量产质检产线,并全程公开直播后,交出的最具说服力的答案。 让我们关注这场直播的硬核数据:连续64小时不间断作业,产线累计完成17625件产品检测,机器人累计执行64828次操作,任务成功率精确达到

纯电动Cayenne首秀保时捷驾驶中心全国路演
科技数码 · 2026-07-01

纯电动Cayenne首秀保时捷驾驶中心全国路演

保时捷正在加速推进其电动化转型战略。继纯电动Cayenne与Gen 3 Evo赛车在三亚街道赛共同亮相后,仅过了一周时间,这款全新纯电SUV便驶入中国专业赛道场景——这一次,地点换成了永久性专业赛道。 回顾2026年北京车展,保时捷首款纯电动Cayenne Turbo正式首发并公布了售价。新车提供两

AI工具能否成为高价志愿咨询纠纷的破局之道
科技数码 · 2026-07-01

AI工具能否成为高价志愿咨询纠纷的破局之道

广东高考成绩公布后,志愿填报这场“第二次大考”随即全面开启。对众多家庭而言,这或许比高考本身更令人心力交瘁——时间紧迫、信息庞杂、选项繁多,每一步都如履薄冰。教育部近日发布预警,严厉批评那些漫天要价的“志愿规划师”,直言其本质上就是忽悠。然而每年踩坑的案例仍屡见不鲜,网上信息真假混杂,不同机构给出的

头部企业全产业链布局锂电池回收循环
科技数码 · 2026-07-01

头部企业全产业链布局锂电池回收循环

近年来,伴随新能源汽车产业的爆发式增长,早期投入使用的动力电池正迎来集中退役高峰,锂电池回收行业因此进入一个至关重要的“窗口期”。这些退役电池中富含锂、钴等珍贵金属资源——尤其是被誉为“白色石油”的锂,正从地下矿藏逐渐转向我们身边的“城市矿山”,从“一次性使用”的线性消耗模式,迈向“循环再生”的可持