清华AIR团队解密：人与AI视觉注意力机制的本质差异

首页

科技数码

热心网友

转载

2026-02-21

清华大学智能产业研究院（AIR）在2月21日发布了一项重要研究，以自动驾驶这一安全关键领域为切入点，首次采用“人类眼动追踪实验+算法对比验证”的双轨研究设计，系统性地揭示了人类与智能驾驶算法在视觉注意力机制上的本质差异。这项研究的核心价值在于提出了人类驾驶注意力的三阶段量化划分框架，并证实了智能驾驶算法在视觉理解层面的核心缺陷——缺乏“语义显著性的提取能力”。而通过融入人类在检查阶段的语义注意力，能够以更经济高效的方式填补专业算法的“语义鸿沟”与大模型的“落地鸿沟”，无需依赖大规模预训练。

研究团队通过招募专业驾驶员与新手司机，分别完成危险检测、可用性识别与异常检测三类任务，结合眼动数据划分注意力阶段，再将不同阶段的注意力机制融入AxANet、UniAD等专业算法及DriveLM等视觉语言模型（VLM），最终揭示出人类与智能驾驶算法注意力的核心差异并非“空间定位”，而是“语义理解”。人类能够通过自上而下的认知机制赋予场景特征语义优先级，而智能算法难以自主习得这一能力。这一发现为自动驾驶算法的性能提升开辟了非规模化的新路径，对资源受限的车载实时系统部署具有重要的实践意义。

编辑姜帆

校对张彦君

来源:https://www.163.com/dy/article/KMAC2QF4055284JB.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：特斯拉Cybertruck北美降价2万美元，入门款取消空气悬挂下一篇：苹果首款折叠iPhone Fold将于2026年秋季亮相，已进入量产筹备

相关攻略

科技数码

许哲诚计算性设计展演评析：数字逻辑与物质建构的生成境域

数字逻辑与物质建构的深度对话 ——评许哲诚“境域·生成”计算性设计展演 □ 丁雅力（江苏省美术馆策展人）当代设计与造物的核心范式，正经历着由计算性设计带来的深刻变革。2026年3月20日，南京艺术学院教师许哲诚于南京莫玄空间呈现的“境域·生成”个人专场展演，正是这一前沿趋势的集中体现。本次展览超越

热心网友

05.18

具身智能研发框架Dexbotic重塑机器人开发流程

近日，开源具身智能原生框架Dexbotic宣布正式支持以RLinf作为其分布式强化学习后端。对具身智能开发者而言，这不仅是一次普通的工程适配，更意味着VLA模型研发中长期存在的「SFT与RL割裂」问题，正在被真正打通。这是一种典型的「乐高式协作」：双方不强行Fork、不粗暴揉合代码，而是保持清晰边

热心网友

05.13

RMS-MoE模型通过检索记忆优化专家路由调度效率

随着大模型参数规模不断增长，混合专家（Mixture-of-Experts, MoE）架构因其稀疏激活特性，成为平衡模型性能与计算开销的主流方案。然而，在实际的Web级应用部署中，一个关键挑战日益凸显：传统MoE的路由机制通常是“无记忆”的。试想，在搜索引擎、智能问答或多轮对话等高并发场景下，用户

热心网友

05.12

编程语言

编程入门指南从零基础到理解核心概念

编程十年的一点分享在软件开发的路上走过十几年，从一个爱好者到以此为业，有些体会或许值得聊聊，就当是抛砖引玉吧。最早接触编程，是从BASIC和C语言开始的。工作后，随着需要，陆续学习了dBase、Access这类桌面数据库的开发。真正以开发为职业，可以说始于FoxPro 5 0，之后技术栈随着项目

热心网友

05.07

编程语言

编程初学者入门指南与核心思维解析

引言编程，是一门实践科学。这意味着，学习它的最佳方式就是动手去敲代码。但这是否意味着，我们可以因此轻视理论的学习呢？入门编程如果你去各大技术社区提问“该如何入门编程”，五花八门的答案会瞬间涌来。不过，仔细梳理一下，无外乎以下几种流派：学院派他们推荐从C语言入手，并辅以数据结构、操作系统等

热心网友

05.07

热门推荐

业界动态

斯柯达晶锐Fabia Motorsport特别版车型正式发布

为庆祝品牌投身赛车运动整整125年，斯柯达正式推出了晶锐Fabia Motorsport Edition特别版。这款车基于Fabia 130打造，设计灵感直接来源于征战赛场的Fabia RS Rally2拉力赛车，整体风格充满了对赛事历史的致敬意味。不过，得先说明白，它的升级重点主要落在了外观和底盘

热心网友

05.18