首页 游戏 软件 资讯 排行榜 专题
首页
AI
北京大学研究揭示AI过度思考导致行为失真原因

北京大学研究揭示AI过度思考导致行为失真原因

热心网友
80
转载
2026-05-15

你是否曾感觉,与AI对话时,对方的回答虽然“正确”,却总像在念剧本,缺乏真人那种鲜活的气息?让它扮演一个随性的年轻人,它可能输出一段激进的“躺平宣言”;模拟普通上班族的日常,回答又总是“教科书般正确”,缺少真实生活中常见的权衡与偶然性。

这种感觉并非错觉。一项由北京大学智能学院、元培学院、心理与认知科学学院及PKU-武汉人工智能研究院联合开展的研究,精准地揭示了当前AI智能体的一个核心缺陷:其模拟的人类行为过于“刻板化”,就像一个被过度指导的演员,表演夸张而失真。更反直觉的是,研究发现,当要求AI在行动前进行更多“心理分析”和“价值观推理”时,其表现非但没有提升,反而变得更加僵化和极端。

为了破解这一难题,研究团队创新性地提出了一套全新的“情境-价值-行动”架构。该研究的完整论文已发表于2026年ACL Findings专刊,编号为arXiv:2604.05939。

北京大学研究团队的新发现:为什么让AI多

一个令人困惑的悖论:越“聪明”的AI,行为越像假人

设想一个日常场景:你连续工作了十二个小时,身心俱疲。这时朋友发来消息:“去健身房吗?”即便你平日热爱运动,此刻大概率会选择回家休息——当下的疲惫感,暂时压过了惯常的自律。

这种“处境深刻影响行为”的现象,在心理学上早有经典解释,即“刺激-有机体-反应”模型。简言之,外部刺激(如极度疲惫)会改变内在状态(此刻只想休息),进而决定最终行为。真实的人类决策,正是这样一个动态、情境化的过程。

然而,现有的大多数AI智能体并非如此工作。它们更像被赋予了一个固定的“性格标签”,无论情境如何变化,都机械地依据标签输出行为。好比一个演员拿到“吝啬鬼”角色后,在任何场景——婚礼、葬礼甚至他人求助时——都只会表演同一种夸张的吝啬,完全无视现实逻辑与情境的微妙差异。

研究团队将这种现象归结为两大问题:“行为僵化”与“价值极化”。前者指AI反应单一,缺乏人类行为的细腻层次与多样性;后者指AI在模拟特定性格倾向时,会将其放大至极端,例如将一个略有享乐倾向的人,描绘成毫无责任感的纵欲者——而这在现实中几乎不存在。

“让AI多思考几步”为何适得其反?

发现问题后,一个直观的改进思路是:让AI在行动前多做几步“思维链推理”,先分析价值观,再结合情境思考感受,最后决策。这听起来很合理,毕竟人类也常“三思而后行”。

但大规模实验的结果出人意料。研究团队设计了对照实验,让具有不同“思考强度”(从0步到8步推理)的AI,在超过110万条真实人类行为数据上进行模拟测试,并对比其生成的行为分布与真实分布的差异。

结果显示,随着推理步骤增加,AI模拟出的行为分布变得越来越“尖锐”——所有人的行为向少数极端点聚集,丰富的行为多样性几乎消失。AI越是“深思熟虑”,就越把所有人推向同一种刻板形象。

其根源在于,AI的“深度思考”并非真正模拟人类心理,而是在反复放大其训练数据中的固有偏见。就像一个不断默念“我要勇敢”的人,最终可能变得鲁莽——因为他所理解的“勇敢”,只是数据中被简化、扭曲的版本。

一个直观的实验佐证了这一点:让GPT-4o扮演一位“自我导向感强(0.9分)、享乐倾向中等(0.4分)”的IT从业者,在经历一整天久坐、垃圾食品、昏沉疲惫的工作后,询问其下班安排。选项包括去健身房、吃夜宵、回家睡觉、去酒吧。

现实中,绝大多数人在此状态下不会选择健身。但在测试中,当享乐倾向设定为0.5或更低时,AI几乎100%选择“去健身房”;即使将享乐倾向调高至0.6,选择健身的概率仍高达93%。AI完全忽略了“极度疲惫”这一关键情境,只是机械执行“高自律=必运动”的刻板逻辑。

现有AI评测方法为何也在帮倒忙?

更棘手的是,该问题长期未被充分揭露,部分原因在于主流的评测方法本身存在缺陷。

目前,学界常用“以AI评AI”的方式,即用一个AI模型为另一个AI的行为打分。问题在于,评分者与被评者源于相似的训练数据,共享相似的偏见。于是,当AI生成一段“极度愤怒者的狂怒发言”时,评分AI也会认为“情绪饱满,表现到位”——因为在它的认知里,“愤怒”就该如此。

这形成了一个自我验证的闭环,如同让色盲者评判画作色彩,偏差难以察觉。

为此,研究团队转向以**真实人类行为数据**为黄金基准进行评测。他们构建了名为**CVABench**的大规模数据集,汇集了超过110万条来自真实世界的行为记录,涵盖超1.5万名用户,横跨Yelp商家评价、Reddit社区评论、Foursquare地理位置签到三个不同领域。

正是依托这一以真实人类为尺度的工具,研究团队才客观揭示了“多思考,反而更差”的反常规律。

CVA架构:让AI学会“感同身受”的动态决策

研究团队提出的“情境-价值-行动”框架,旨在模仿更接近人类真实决策的模型。其名称直接对应心理学中的“刺激-有机体-反应”模型:情境即外部刺激,价值即内在有机体状态,行动即最终反应。

其中,“价值”维度借鉴了心理学家施瓦茨的“基本人类价值观理论”,该理论将人类核心价值观归纳为十个维度:自我导向、刺激追求、享乐主义、成就感、权力、安全感、顺从性、传统主义、仁善、普世主义。

CVA框架的核心创新在于,它不将价值观视为固定不变的“性格标签”,而是将其理解为**随情境动态变化的激活状态**。例如,工作十二小时后又累又饿,“享乐主义”维度会被高度激活,而“自我导向”的激活度则相应降低。AI需要根据当前情境,动态计算各价值维度的激活程度,再由此决定行为。

该框架在技术上包含两个核心组件:

1. 价值-行动映射校准
此组件旨在解决AI的先天偏见问题。首先,研究团队使用大量真实人类行为数据对AI进行监督微调,让AI从真实数据中学习“何种情境对应何种行为”,而非依赖预训练中的偏见。随后,采用“直接偏好优化”技术,通过告诉AI哪种回答更细腻真实、哪种过于刻板夸张,进一步纠正其行为偏差。

这个过程,好比先向新生展示“真实的学生如何行事”,再通过反复纠正“这个回答更真实,那个太夸张了”,使其真正融入环境。

2. 价值驱动推理
此组件解决AI在决策时被自身偏见带偏的问题。其核心是一个独立的**“价值验证器”**模块。与“AI自我评判”不同,该验证器基于真实人类行为数据独立训练,专门评估“在特定情境与价值观激活状态下,某个行为选项符合真实人类选择的程度”。

具体工作流程分为三步:经过校准的AI先生成一批候选行为选项;价值验证器为每个选项打分,评估其与当前激活价值观的匹配度;最终输出得分最高的选项。

这一流程模拟了人类的重要决策过程:先头脑风暴若干方案,再用内心价值观筛选评估,最终选出最符合当下心理状态的那个。

验证器内部采用“双塔”设计:一个模块处理行为与情境信息,提取语义特征;另一个模块处理价值观信息,生成代表“价值观内在结构”的向量。二者通过“交叉注意力机制”交互,使验证器能精准感知“特定情境下各价值观维度的激活程度”,从而做出更精准的匹配评估。

研究还发现一个有趣现象:候选行为选项的数量并非越多越好。当选项超过四个后,系统性能不再提升甚至下降。这与心理学中的“认知负荷限制”概念吻合——真实人类做决策时,也不会穷尽所有可能,而是在有限选项中权衡,这种“有限理性”反而更符合人类认知规律。

实验结果:CVA框架的优势究竟在哪里?

研究团队在CVABench上进行了大规模对比实验,将CVA框架与多种现有方法(如直接角色扮演、不同步数的思维链推理、仅SFT或SFT+DPO的版本)进行比较。

在商家评价预测任务中,CVA的评分准确率达到0.47,比最佳基准方法提升约10%。在用户情感预测和地理位置预测任务上,其表现比未加入价值验证器的版本高出近40%。在文本生成的语言多样性指标上,CVA生成文本与真实人类文本的分布差异,仅为基准方法的1/3到1/2——这意味着,CVA生成的文字读起来更像人写的。

在衡量群体行为多样性时,CVA的表现尤为突出。研究采用“价值分布方差偏差”指标,越接近零,说明模拟分布与真实分布越接近。CVA的该指标为+1.06%,几乎与真实分布一致;而推理步数越多的对比方法,该指标负值越大(最严重达-40.74%),意味着它们将丰富多彩的行为多样性几乎彻底抹平。

团队还验证了各组件贡献:未经调整的原始模型准确率为0.22;加入SFT后提升至0.43;再加入DPO后维持在0.43;最终引入价值验证器推理模块后,跃升至0.47。这表明SFT和DPO主要解决基础行为准确性问题,而价值验证器则带来了进一步的精细化提升。

CVA框架的“可解释性”:洞悉AI的决策逻辑

除了行为更准确,CVA框架还具备一项重要优势:可解释性。

研究发现,训练完成后,价值验证器内部学到的价值观表示,自发呈现出了施瓦茨理论中经典的“圆形结构”——十个价值维度在表示空间中的相对位置,与心理学理论预测高度一致,相邻价值观靠近,对立价值观远离。该圆形结构的复现精度(圆形倒置得分)达0.75,而未经训练的原始模型仅为0.48。

这意味着,CVA不仅在行为输出上更拟人,其内部对价值观的“理解”也更接近心理学描述。这为研究者提供了一个独特窗口,可直接观察AI决策时哪些价值观维度在主导判断。

更进一步,通过分析验证器内部的“交叉注意力权重”,研究团队发现了特定词语与价值观维度的关联。例如,“创造力”与“成就感”维度高度关联;“困惑”与“顺从性”关联;“抖音”、“偏见”、“禁止”等词则与“普世主义”维度强烈关联。这种词语-价值观的映射关系,不仅具有学术解释意义,也为未来通过“调节特定价值观维度激活强度”来精细控制AI行为提供了可能。

研究的局限性与未来展望

研究团队在论文中也坦诚指出了当前工作的局限性。

首先,CVABench数据集目前仅覆盖约1.5万名用户和三个行为领域,规模和覆盖面有待扩展。未来计划拓展至消费偏好、文化选择(如文学、音乐、电影偏好)等领域,以验证CVA框架的泛化能力。

其次,价值观测量本身存在难度。团队使用“生成式心理测量学”工具自动测量用户价值观,该工具比传统问卷调查更稳定,不易受“被试者效应”影响,但其自身也可能编码某些偏见。不过,由于CVA框架以真实人类数据为最终监督信号,而非完全依赖测量工具,因此这种偏见的影响有限,避免了“AI自我验证”的恶性循环。

此外,由于大规模模拟实验计算成本高昂,此次对比的基准方法数量相对有限。团队表示将在后续工作中继续扩充对比范围。

在数据隐私方面,团队强调对所有原始数据进行了严格的去标识化处理,确保无任何个人身份信息残留。且三个行为领域的用户数据集完全无重叠,杜绝了通过跨平台数据拼接重建个人数字画像的可能性。

归根结底,这项研究揭示了一个颇具讽刺意味的现象:我们越努力让AI通过“逻辑推理”模拟人类,它反而离真实的人类越远。人类行为并非简单的“性格决定论”,而是在具体处境中,由各种内在价值观动态博弈的结果。CVA框架的贡献,在于让AI学会了这种“动态感”——不再是被贴标签的木偶,而是能根据情境调整内在状态的拟真个体。

当然,这只是一个起点。从游戏NPC到社交媒体推荐,从心理健康辅助对话到政策模拟工具,能真正理解并再现人类行为复杂性的AI系统,拥有广阔的应用前景。但正如这项研究所揭示的,仅让AI“想得更多”远远不够,更重要的是,让它学会从真实的人类经验中,理解何为真正的“感同身受”。


Q&A

Q1:CVA架构中的“价值验证器”和普通AI自我评估有什么区别?
A:普通AI自我评估是让同一个AI既生成回答又为自己打分,导致其用自身偏见验证自身偏见,形成错误强化循环。CVA的价值验证器是一个独立模块,专用于真实人类行为数据训练,不参与生成过程,仅评估哪个候选行为最符合真实人类在特定情境下的选择,相当于引入了一个基于人类经验的“外部裁判”。

Q2:为什么让AI多做几步推理反而让行为更不真实?
A:AI的“推理”并非真正的人类思考,而是在不断放大其从训练数据中学到的简化偏见。每多推理一步,AI就会进一步强化被过度简化的价值观刻板印象,将原本有细微差别的行为推向极端,最终导致模拟出的行为多样性消失,所有人都变为同一种极端类型。

Q3:CVABench评测数据集和传统AI评测有什么本质不同?
A:传统AI评测大量依赖“用另一个AI打分”,评测者与被评者偏见相似,会相互认可彼此的错误。CVABench使用超过110万条来自1.5万名真实用户在Yelp、Reddit和Foursquare上的真实行为记录作为标准答案,其评测是与真实人类行为数据比较,而非在AI偏见体系内自我循环。

来源:https://www.techwalker.com/2026/0416/3184165.shtml
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

北京大学研究揭示AI过度思考导致行为失真原因
AI
北京大学研究揭示AI过度思考导致行为失真原因

你是否曾感觉,与AI对话时,对方的回答虽然“正确”,却总像在念剧本,缺乏真人那种鲜活的气息?让它扮演一个随性的年轻人,它可能输出一段激进的“躺平宣言”;模拟普通上班族的日常,回答又总是“教科书般正确”,缺少真实生活中常见的权衡与偶然性。 这种感觉并非错觉。一项由北京大学智能学院、元培学院、心理与认知

热心网友
05.15
北京大学首创智能视频助手可记忆人物与动作细节
AI
北京大学首创智能视频助手可记忆人物与动作细节

追剧时突然想不起某个角色的过往经历,或者想快速找到剧中人物穿红色衣服的片段——这是许多观众都遇到过的困扰。传统视频播放器无法满足这类需求,观众只能依靠记忆或手动拖拽进度条来寻找。而现有的人工智能技术,虽然能回答关于静态图片的问题,但在处理连续动态的视频时,往往只能分析“当前画面”,缺乏像人类一样形成

热心网友
05.14
北京大学联合美团破解AI推理难题:多路径思考让AI更智能
AI
北京大学联合美团破解AI推理难题:多路径思考让AI更智能

这项由北京大学国家软件工程研究中心与美团集团联合开展的研究发表于2026年2月,有兴趣的读者可通过arXiv预印本平台编号arXiv:2602 08344v1查阅完整论文。 面对复杂的数学难题,人类解题者通常会尝试多种思路——先用代数方法,不行再试几何法,或者从特殊情况入手。这种“多管齐下”的并行思

热心网友
05.12
北京大学等顶尖高校破解AI记忆难题:大模型压缩记忆技术详解
AI
北京大学等顶尖高校破解AI记忆难题:大模型压缩记忆技术详解

这项由北京大学、中国电信人工智能研究院、代尔夫特理工大学、马里兰大学和字节跳动等多家顶尖机构合作完成的研究,已于2026年2月发布在arXiv预印本平台(论文编号:arXiv:2602 05929v2)。它为困扰大模型发展的一个核心瓶颈,提供了极具启发性的解决方案。 我们与ChatGPT这类大模型对

热心网友
05.12
北京大学与阿里达摩院联手优化AI代码生成效率突破速度瓶颈
AI
北京大学与阿里达摩院联手优化AI代码生成效率突破速度瓶颈

当我们在手机上打开各类App或使用软件时,背后是海量代码在支撑其运行。如今,借助人工智能自动生成代码已不再是新鲜事。然而,当前AI生成的代码普遍存在一个痛点:虽然能实现基本功能,但往往效率不高,如同新手司机上路,能抵达目的地却耗时耗力。 近期,一项由北京大学、南京大学、中山大学、华东师范大学、中国人

热心网友
05.12

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

领克GT概念跑车北京车展首发 百公里加速仅2秒
科技数码
领克GT概念跑车北京车展首发 百公里加速仅2秒

领克首款GT概念跑车亮相北京车展,由中欧团队联合打造。新车采用经典GT比例与低趴宽体设计,配备液态金属蓝涂装与2+2座舱,设有高性能模式按键可激活空气动力学套件。车辆采用后驱布局与AI智能运动控制系统,百公里加速约2秒,设计融合瑞典极简美学并参考全球用户反馈。

热心网友
05.14
英伟达RTX 5070移动版GPU发布 12GB显存性能大幅提升
科技数码
英伟达RTX 5070移动版GPU发布 12GB显存性能大幅提升

英伟达推出12GB显存版RTX5070移动GPU,与8GB版同步上市。两者均基于Blackwell架构,核心规格相同,仅显存容量不同。此举旨在缓解GDDR7芯片供应压力,为OEM提供灵活配置,加速笔记本产品布局,更大显存可更好满足游戏与AI应用需求。

热心网友
05.14
微星新款雾面WOLED显示器MAG 276QRY28与276QRDY54正式发售
科技数码
微星新款雾面WOLED显示器MAG 276QRY28与276QRDY54正式发售

微星将于5月15日推出两款26 5英寸雾面WOLED显示器MAG276QRY28和276QRDY54,售价分别为2499元和6299元。均采用第四代WOLED面板,具备QHD分辨率、VESADisplayHDRTrueBlack500认证、1500尼特峰值亮度及99 5%DCI-P3色域覆盖。276QRY28刷新率为280Hz,高阶款276QRDY54支持4

热心网友
05.14
中芯国际一季度净利润13.61亿元 同比增长0.4%
科技数码
中芯国际一季度净利润13.61亿元 同比增长0.4%

中芯国际2026年第一季度营收176 17亿元,同比增长8 1%;净利润13 61亿元,同比增长0 4%。公司预计第二季度收入环比增长14%至16%,毛利率指引上调至20%至22%。这反映出公司在行业复苏中展现出财务韧性,并通过运营优化增强了短期增长势头。

热心网友
05.14
AI图像处理训练数据存在色差问题 16种算法经小改动全面提升
AI
AI图像处理训练数据存在色差问题 16种算法经小改动全面提升

手机修图、相机降噪、视频去雾……这些我们日常使用的图像处理功能,其背后都离不开人工智能(AI)技术的驱动。通常,AI模型的训练逻辑是:向模型展示大量“低质图像”与“优质图像”的配对数据,让它学习如何将前者转化为后者。然而,天津大学计算机视觉团队近期发表的一项研究(arXiv:2604 08172)揭

热心网友
05.14