大模型如今的答题能力确实越来越强,这一点毋庸置疑。然而,当人工智能走出聊天窗口,嵌入智能眼镜、可穿戴设备,甚至化身家中的机器人时,情况便截然不同。用户可能无暇将需求一字一句表述清楚,也不希望助手动辄插话。理想的AI助手,应当能够即时读懂用户的心境,在需要时适时出现,在不该发声时保持静默。
近日,清华大学人工智能学院MEOW Lab联合清华人机交互与普适计算实验室、字节跳动PICO、威斯康辛大学麦迪逊分校等国内外机构,发布了两项最新成果——EgoIntrospect与IPIBench。前者聚焦于AI如何准确理解用户的情绪、意图以及记忆需求;后者则关注在连续视频流中,AI如何判断何时应该提醒、何时应该保持沉默,并高效管理多轮任务。两项研究共同指向同一个核心结论:下一代AI助手绝不能仅仅是更强的答题工具,更必须学会“读懂人心”,并精准把握交互时机。
- 论文标题:EgoIntrospect: An Egocentric Dataset and Benchmark for User-Centric Internal State Reasoning
- 论文地址:https://arxiv.org/abs/2605.17262
- 论文标题:IPIBench: Evaluating Interactive Proactive Intelligence of MLLMs under Continuous Streams
- 论文地址:https://arxiv.org/abs/2605.27074
背景:AI从问答系统迈向协作助手
今年5月,Thinking Machine Lab在《Interaction Models: A Scalable Approach to Human-AI Collaboration》一文中也探讨了类似的趋势。文章指出,当前许多AI系统依然基于“用户输入、模型输出”的回合制问答模式。然而,真正的人机协作远比这复杂——人们在协同工作时,会自然停顿、打断、修正,并根据对方的实时状态调整插话的节奏。因此,当AI从简单问答转向实时协作时,模型究竟还欠缺哪些关键能力?清华团队的两项研究正是在这一背景下展开,分别从用户理解与主动交互两个维度给出了答案。
EgoIntrospect:让AI真正理解用户,而不仅是看懂画面
过去,多模态大模型已经能够识别图像与视频中的物体、动作和场景。但如果AI要成为智能眼镜中的随身助手,仅仅理解外部世界只是第一步。比如,看到一只狗,用户可能感到开心,也可能紧张;同样路过一张地图,用户或许只是随意一瞥,或许内心希望AI帮忙记住它。
EgoIntrospect的核心在于,让模型学会从第一视角数据中推断用户的内部状态。研究团队采集了60名参与者超过180小时的日常记录,数据来源涵盖智能眼镜、智能手表、腕带、智能戒指等设备,包括第一视角视频、音频、眼动及生理信号。与传统视频数据集不同,这项研究特别强调“用户自我标注”——参与者在采集过程中会主动标记重要时刻,并在事后补充情绪、意图及记忆需求的具体信息。
基于这些数据,EgoIntrospect设计了三大类任务。第一类是情感体验:模型需判断哪些片段对用户而言值得记录,并推断特定情境下用户可能产生的情绪及其强度。第二类是交互意图:在被动响应时,模型需判断完成用户请求还需要哪些外部工具;在主动交互时,模型要理解什么样的互动对用户有意义、能提供帮助,以及什么时机介入才不会造成打扰。第三类是认知记忆:模型需区分哪些信息用户可能记得住,哪些需要AI协助保存,同时还要明确这类信息应保留多久。
这样一来,智能助手的测评标准就不再局限于“看懂画面”了。对于可穿戴AI而言,第一视角视频并非普通素材,而是用户正在亲历的现场;模型需要理解的,也不仅仅是物体与动作,更是它们对用户所具有的意义。
IPIBench:AI既要主动帮忙,也要学会适时开口
上述EgoIntrospect更关注AI如何理解用户,而IPIBench则侧重于AI在互动中如何抓住恰当的时机。现实中的智能助手不能随心所欲地开口。提醒太早会造成打扰,提醒太晚可能错过关键节点;更棘手的是,如果用户已经取消或更改了提醒,模型却仍按旧指令触发,说明它根本没有理解持续互动中任务状态的动态变化。
为此,IPIBench提出了一个面向流式视频场景的交互式主动智能评测基准。传统的视频问答通常是先把一整段视频交给模型观看,然后等待它看完再作答。但在IPIBench中,视频是持续流入的,用户的指令也可能随时调整。模型只能获取当前时刻之前的视频内容,同时还需在连续输入中完成主动监测、任务管理和即时问答等多项工作。举个例子,在厨房场景中,用户说:“锅里的水开了提醒我。”模型不能立即回应,也不能等水开过久才提醒,而需要持续观察,在恰当的时刻触发提醒。如果用户随后改口或取消提醒,模型还必须及时更新任务状态,避免继续按旧指令响应。
基于这些需求,IPIBench设计了主动监测、主动任务管理,以及即时提问与主动式请求交织三类任务。评测结果表明,当前的多模态大模型在主动触发的稳定性以及多轮交互的协调能力方面,仍存在明显短板。
针对这些问题,研究团队提出了IPI-Agent。该方案无需重新训练基础模型,而是在模型外部附加一层交互调度机制——通过交互意图识别与显式任务记忆管理,将用户输入区分为提问、新增任务与修改/取消任务,并持续维护有效任务及其状态变化,从而实现跨轮次的稳定任务跟踪。同时引入时间门控机制:系统先根据历史任务和近期视频内容生成候选响应,再结合视频内容的变化判断是否真正需要触发提醒。
总的来说,IPIBench将AI助手的测评从“看完视频后答题”推进到“边看、边等、边管理任务”的真实互动过程。对于未来的可穿戴设备、家庭机器人和具身智能系统而言,能否在恰当时机开口,或许与回答问题本身同样重要。
总结与展望:AI助手需要更懂人,也更懂时机
综合清华团队的两项研究,不难发现AI助手的评测正从简单问答走向更加真实的交互场景。EgoIntrospect将焦点拉回到用户自身,强调理解用户的情绪、意图和记忆;IPIBench则进一步延伸到主动交互过程,考察提醒、沉默、任务更新以及多轮协调等表现。
在智能眼镜、可穿戴设备和具身智能等场景中,AI助手面对的往往不再是一个坐在屏幕前等待提问的人,而是一个正在行动、情绪起伏、会犹豫也会临时改变主意的人。正因如此,下一代AI助手的关键不仅在于生成更流畅的答案,更在于更细致地理解用户、更稳妥地管理任务、更有分寸地介入交互。
