Google新数据集首次大规模捕捉用户未言明想法
当对话型AI的规模扩大到每天处理数十亿次交互时,一个值得关注的问题浮现出来:我们真的理解用户在想什么吗?
目前绝大多数研究都聚焦于用户“说了什么”,但那些“没说出来”的部分——用户的真实动机、隐含的期望、对回复的内心评价——几乎仍是一片未开发的领域。无论是WildChat还是LMSYS-Chat-1M这类主流对话数据集,都只把对话文本当作唯一可观测的信号。而用户出于“最少努力原则”和社交礼貌,写下的提示与其脑中的真实意图之间,天然存在信息损耗:表达要高效、得体、有目的性,但绝不会是内心活动的完整复刻。
现有的对齐方法,无论是偏好评分、点赞点踩还是基于消息文本的反馈,都很难回答一个根本问题:“用户到底对哪一部分不满意?为什么?”更别提捕捉用户在多轮对话中如何悄然调整自己的目标。这就引出了一个关键命题:
如何在真实的人机对话中,系统性地捕捉那些“未言明的思考”,并把它们当作新的数据维度来训练和评估AI助手?
来自JHU、MIT和Google Research的一篇新研究,给出了一套值得关注的解法。他们推出的ThoughtTrace,是首个将真实多轮人机对话与用户“自我报告的思考”大规模配对的数据集。这里的“思考”分两类:用户发送提示前的reasons(动机、目标、上下文、对内容和风格的期待),以及读到AI回复后的reactions(满意度、对内容/风格/范围的具体不满)。这些第一人称的认知痕迹,正好填上了“可观测语句”与“真实用户意图”之间的那道鸿沟。
从规模上看,这套语料库的构成相当扎实:
- 1,058名用户
- 2,155段多轮对话
- 17,058次交互轮次
- 10,174条思考标注
- 覆盖20个不同的语言模型(包括GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro Preview等前沿模型,以及若干开源轻量模型)
基于这批数据,作者证明:引入“思考”信号,能将下一条用户消息预测的语义相似度从21.6提升至30.6(相对提升41.7%),并将基于Arena-Hard的对齐胜率拉高25.6%。这意味着,ThoughtTrace为后续的RL、DPO等训练范式提供了一种全新的、接近ground-truth级别的监督信号。

论文标题:ThoughtTrace: Understanding User Thoughts in Real-World LLM Interactions
论文链接:https://arxiv.org/abs/2605.20087
方法概览
为了让用户在自然对话中诚实地外化自己的思考,研究团队通过Prolific招募参与者,设计了一套四步采集流程:首先签署知情同意书,明确自愿参与与随时可退出的权利;然后通过引导式教程学习聊天界面和标注方法,并通过简短测验;接着进入核心环节——参与者自行设定两个开放式任务,自由与AI多轮交流,并在每条用户消息上标注reason,在每条AI回复上标注reaction;最后完成任务后调查,描述实际完成了什么、对AI有什么期望,并填写个人背景问卷。
每条ThoughtTrace记录对应一段完整对话,按时间戳保存所有用户消息、AI回复以及附着其上的思考。reason来自7种类型之一,reaction来自5种类型之一,每条思考都带有自己的时间戳与文本内容,标注对AI完全不可见。

数据特性
作者从对话和思考两个维度刻画了ThoughtTrace的特性。
对话层面有三个值得关注的地方:
- 代表性的用户群:覆盖18至65+各年龄段、多种教育水平与职业身份,AI使用频率从“从未”到“每日多次”,符合频繁AI用户的人口画像。
- 长程、多元的对话:ThoughtTrace的中位数对话轮次为8轮,而WildChat与LMSYS-Chat-1M都只有2轮;话题分布跨越7个大类、36个细分子主题,没有单一类别占主导。
- 任务延伸主导:57.0%的用户消息属于“在已有任务上扩展、深化、迭代”,远超新请求(12.5%)、重试(2.9%)和变体(2.3%),且这种延伸模式随对话进展愈发显著。
思考层面则揭示了四个关键性质:
- 思考与消息显著不同:嵌入空间可视化与基于LLM的语义覆盖打分均显示,用户消息对其背后reason的覆盖度仅3.22(1–5分制),对前一轮reaction的覆盖度仅2.00——对话文本远不能完整复现用户内心活动。
- 思考对前沿LLM而言难以推断:让GPT-5.4、Gemini 3.1 Pro Preview、Claude Opus 4.6从对话上下文中推测用户的reason与reaction,三模型平均得分仅为2.93和2.54,介于“极少重叠”与“部分重叠”之间。
- 思考内容高度多元:7种reason涵盖Task Motivation & Goal(36.9%)、Task Continuation(21.4%)、Context Grounding & Constraints(13.1%)、Content Expectation(11.5%)、Task Reorientation(11.1%)、Style Expectation(5.0%)和Social and Others(1.0%);5种reaction包括Explicit Affirmation(72.2%)、Content Relevance(11.9%)、Presentation Style(6.4%)、Scope Fit(6.1%)、Partial Satisfaction(3.4%)。
- 思考随对话阶段动态变化:Task Motivation主导早期,Task Continuation在中后期占主导;Explicit Affirmation从早期67%上升至晚期79%,反映对话向令人满意的回答收敛。这种动态独立于话题或长度,仅与对话阶段和多轮关系相关。
实验结果
这些“内心思考”真的能用于下游建模吗?作者设计了两组关键实验。

实验一:Thoughts Predict User Beha vior
让LLM在“仅有对话历史”与“历史+用户思考标注”两种条件下预测用户的下一条消息,评估三个前沿模型,并用随机抽取的另一个模型作为评判者打分(0–100分的语义相似度)。

结果一目了然:仅仅向模型提供用户的内心思考,平均预测分数从21.6跃升到30.6,相对提升41.7%。其中Opus 4.6的提升尤为显著,单独拉升了14.2个点。这说明ThoughtTrace中的reason与reaction提供了对话历史所不具备的、能够预示用户未来行为的可执行信号——这对构建高保真用户模拟器、面向用户主动协助的智能体都有直接价值。
实验二:Thoughts Improve Model Alignment
作者直接利用ThoughtTrace的reaction标签定位“用户实际不满意的回复”,再用对应的思考内容指引模型重写,形成thought-guided rewrites;将其与原始消息配对,在Qwen3.5-4B上进行DPO训练,于Arena-Hard上评估。

相较基础模型,思考引导版本在风格控制胜率上提升25.6%;相较WildChat基线,提升6.6%;同样在ThoughtTrace上,思考引导比消息引导高4.5%,表明思考承载着比消息更丰富的不满与修正信号。
更值得关注的是,思考能从同一批对话中识别出1,000条不满意实例,而仅依赖消息只能挖出450条,前者是后者的2.2倍。这意味着思考天然提供了更密集的监督——不仅告诉我们“哪一条回答用户不满意”,还直接说明“应当如何修正”,把响应识别和响应修正两件事统一进了同一条监督信号。
结语
作者将thoughts定位为人机交互研究的一种新数据模态:它捕捉用户的潜在认知,难以从语句中复原,跨越多种内容形态,并随对话阶段动态变化。无论是用户行为预测、模型对齐,还是未来的奖励建模、On-Policy Distillation等在线学习范式,思考都提供了消息文本所无法替代的细粒度信号。
ThoughtTrace由此打开了三条新的研究方向:(1)用户建模——系统研究人机交互中的动态心理过程;(2)模型训练——把思考作为新的监督信号,用于训练真正理解用户潜在目标与偏好的助手;(3)评估——构建以思考为中心的基准,把评估从表面语句推进到潜在意图与主观体验。
正如论文所言,ThoughtTrace将用户思考确立为研究人机交互背后认知动力学的一种基础信号,也为构建真正理解用户“潜在目标、偏好与需求”的下一代AI助手,铺设了一条新的研究路径。
相关攻略
谷歌NanoBanana2在速度、成本、中文理解与多页PPT一致性上显著超越上一代Pro,日常创作表现更稳定细腻;然而在超写实摄影、高精度物理建模等极致场景中,Pro的结构严谨性仍更为可靠。
算力、算法与交互三大技术趋势加速交汇,推动人工智能向普惠、类心智与人性化演进,将催生高度自主的智能体规模化涌现,重构数字生态。未来机遇与挑战并存,需在效率与伦理、个性化与社会适应间寻求平衡,引导技术发展与社会价值协同。
谷歌I O2026开发者大会以AI为核心,展示Gemini模型升级与AI驱动搜索等重要更新。大会明确了谷歌将AI从工具转向系统底层“数字员工”的战略,并发布新模型及与三星合作的AI眼镜。面对高昂支出与激烈竞争,谷歌正加速构建新生态与商业闭环,尝试通过订阅服务盈利,但市场反应仍显审慎。
8月19日,谷歌正式发布了搭载全新AI技术的Pixel 9系列智能手机,瞬间引爆了媒体圈的热议。彭博社知名记者马克·古尔曼亲临现场体验后,发出了一句看似不经意的感叹——看完谷歌这一系列AI创新,你很难不怀疑苹果在人工智能领域已经落后了至少两到三年。在最新一期Power On时事通讯中,古尔曼深入剖析
2024年8月9日,谷歌I O Connect China开发者大会圆满闭幕。本次活动专门面向中国开发者,全面呈现了谷歌在人工智能、移动技术、云计算及Web技术领域的最新进展。简而言之,谷歌希望向开发者展示其最新技术工具箱,激励大家探索更多应用可能性。 毫无疑问,人工智能是本次大会的焦点。谷歌一次性
热门专题
热门推荐
史蒂文·斯皮尔伯格执导的科幻新片《揭秘日》定档6月12日。影片讲述气象主播玛格丽特获超能力后,与黑客丹尼尔联手揭露政府长期掩盖外星人存在的真相,随即遭到影子政府追杀。电影探讨人类是否为宇宙唯一文明,引发对“真相”的哲学拷问。
通过构建包含背景价值观、行为规范及偏好设置的万字提示词框架,使AI在私有代码库中实现理解架构哲学并主动协作,从被动执行转变为具备架构直觉的专业伙伴,恢复许愿式开发体验。
全链网报道,5月28日,美联芝加哥联储银&行行长古尔斯比抛出了一个值得深思的判断:如果市场对未来生产率大幅提升的预期过于乐观,进而带动投资和消费支出猛增,那反而可能推高通胀,最终倒逼美联储加息。这话是在东京出席日本央&行会议时说的,他准备了讲稿,逻辑相当清晰。 古尔斯比的原话是这么讲的——“预期收入
360漏洞挖掘智能体采用“智能体中心”路径,将专家经验与知识库转化为协同工作的垂直智能体,在OpenClaw生态中发现23个安全漏洞,覆盖远程控制、权限绕过等风险。其工程化、实战化的AI安全能力引发海外关注,为AIAgent时代安全建设提供了新思路。
生成特定城市曲风的Citypop音乐常因未将城市意象转化为声学参数而失败。通过MiniMaxM1Chat提取城市声景语义标签,在海螺AI中构建城市-节奏-音色三维绑定,启用Citypop专用微调权重,最后用剪映实现音画耦合,可精准还原城市霓虹质感。





