清华团队两项新研究聚焦用户理解与适时互动_AI热点日报

如今，大模型回答问题已经越来越得心应手。但想想看，当 AI 不再只是聊天窗口里那个对话框，而是走进智能眼镜、可穿戴设备，甚至家庭机器人时，情况就大不一样了。用户未必有时间把需求完整说一遍，也未必希望助手随时插话。真正理想的助手，应该在现场真正理解人——在用户需要的时候出现，在不该说话的时候保持安静。

最近，清华大学人工智能学院 MEOW Lab 联合字节跳动 PICO、威斯康辛大学麦迪逊分校等机构，发布了两项很有启发的研究——EgoIntrospect 和 IPIBench。前者聚焦于 AI 如何理解用户的情绪、意图和记忆需求；后者关注 AI 在连续视频流中，如何判断何时提醒、何时沉默，以及如何管理多轮任务。这两项研究都指向同一个方向：下一代 AI 助手不应该是更强的答题机器，还得学会读懂人，把握时机，适时互动。

论文标题：EgoIntrospect: An Egocentric Dataset and Benchmark for User-Centric Internal State Reasoning
论文地址：https://arxiv.org/abs/2605.17262

论文标题：IPIBench: Evaluating Interactive Proactive Intelligence of MLLMs under Continuous Streams
论文地址：https://arxiv.org/abs/2605.27074

背景：AI 从问答系统到协作助手

今年 5 月，Thinking Machine Lab 发表了一篇文章《Interaction Models: A Scalable Approach to Human-AI Collaboration》，直接讨论了这个交互转向。文章指出，目前很多 AI 系统仍然停留在用户输入、模型输出的回合制问答模式上。但真实的协作根本不是这样运转的——人与人一起做事时会停顿、打断、修正，还会根据对方的状态调整介入时机。所以，当 AI 从问答走向实时协作，模型到底缺少哪些能力？清华团队这两项研究，正是在这个背景下，分别从用户理解和主动交互两个侧面给出了答案。

EgoIntrospect：让 AI 真正理解用户，而不只是看懂画面

过去，多模态大模型已经能够识别图像和视频中的物体、动作和场景。但如果 AI 要成为智能眼镜里的随身助手，理解外部世界只是起点。举个简单的例子：看到一只狗，用户可能感到开心，也可能感到紧张；同样路过一张地图，用户也许只是随意一瞥，或许却希望 AI 能帮自己记住它。所以，理解场景还远远不够，关键是理解场景对用户意味着什么。

EgoIntrospect 的核心，就是让模型从第一视角数据中推断用户的内部状态。研究团队采集了 60 名参与者、超过 180 小时的日常记录，数据来自智能眼镜、智能手表、腕带、智能戒指等设备，包含第一视角视频、音频、眼动、生理信号。和传统的视频数据集不同，这项研究特别强调「用户自我标注」——参与者会在数据采集过程中标记重要时刻，并在事后补充情绪、意图和记忆需求的具体信息。

基于这些数据，EgoIntrospect 设计了三类任务。第一类是情感体验：模型需要判断哪些片段对用户来说值得记录，并推断在特定情境下用户可能产生的情绪及其强度。第二类是交互意图：一方面，模型在被动响应时要判断完成用户请求还需要哪些外部工具支持；另一方面，在主动交互时也要理解什么样的互动对用户是有意义且能提供帮助的，以及在什么时机介入才不会造成打扰。第三类是认知记忆：模型需要区分哪些信息用户可能记得住，哪些信息需要 AI 协助保存，同时还要明确这类信息应当保存多久。

这样一来，对可穿戴 AI 的评测就不再只是考验它是否看懂了画面。第一视角视频不是普通素材，而是用户正在经历的现场。模型要理解的也不只是物体和动作，还有它们对用户的意义。

IPIBench：AI 既要主动帮忙，也要学会适时开口

EgoIntrospect 更关注 AI 如何理解用户，而 IPIBench 则强调 AI 在互动中如何抓住合适的时机。现实中的智能助手不能想说什么就说什么——提醒得太早会显得打扰，提醒得太晚又可能错过；更关键的是，如果用户已经取消或更改了提醒，但模型仍然按旧指令触发，那就说明它根本没有真正理解这种持续互动下的任务状态。

因此，IPIBench 提出了一个面向流式视频场景的交互式主动智能评测基准。传统视频问答更像是一整段视频先交给模型看完，再回答问题。而在 IPIBench 中，视频是不断流入的，用户的指令也可能随时调整。模型只能获取当前时刻之前的视频内容，同时还要在连续输入的过程中完成主动监测、任务管理和即时问答等多项工作。举个例子，在厨房场景里，用户说：「锅里的水开了提醒我。」模型不能立刻回应，也不能等水开过很久才提醒，而必须持续观察并在恰当的时刻触发提醒。如果用户随后改口或取消提醒，模型还需要及时更新任务状态，避免继续按旧指令响应。

基于上述需求，IPIBench 设计了主动监测、主动任务管理，以及即时提问与主动式请求交织三类任务。评测结果表明，目前的多模态大模型在主动触发的稳定性和多轮交互的协调能力方面仍然存在明显短板。

针对这些问题，研究团队提出了 IPI-Agent。它不需要重新训练基础模型，而是在模型外部额外加一层交互调度机制，通过交互意图识别与显式任务记忆管理，将用户输入区分为提问、新增任务与修改/取消任务，并持续维护有效任务及其状态变化，从而实现跨轮次的稳定任务跟踪。同时，它引入了时间门控机制：系统会先根据历史任务和近期视频内容生成候选响应，再结合视频内容的变化判断是否真的到了需要触发的时机。

总的来说，IPIBench 把对 AI 助手的评测从“看完视频后答题”，推进到“边看、边等、边管理任务”的真实互动过程。对于未来的可穿戴设备、家庭机器人和具身智能系统而言，能否在合适的时候开口，可能和回答问题本身一样重要。

总结与展望：AI 助手需要更懂人，也更懂时机

把清华团队的两项研究放在一起，可以看到一个清晰的趋势：AI 助手的评测正在从单纯问答走向更真实的互动场景。EgoIntrospect 把注意力放回用户自身，强调理解用户的情绪、意图和记忆；IPIBench 则进一步延伸到主动交互过程，考察提醒、沉默、任务更新以及多轮协调的表现。

在智能眼镜、可穿戴设备和具身智能等场景里，AI 助手面对的往往不再只是一个坐在屏幕前等着提问的人，而是一个正在行动、会有情绪起伏、会犹豫、也会临时改变主意的人。正因如此，下一代 AI 助手的关键不只是生成更流畅的答案，还要更细致地理解用户，更稳妥地管理任务，更有分寸地介入现场。