首页 游戏 软件 资讯 排行榜 专题
首页
AI
《科学》研究揭示AI如何精通人情世故及人类沟通偏好

《科学》研究揭示AI如何精通人情世故及人类沟通偏好

热心网友
11
转载
2026-03-30



免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

机器之心编辑部

自从大语言模型诞生起至今,AI 已经润物无声地融入了我们的工作生活,也成为了现代社会的重要组成部分。

但使用 AI 日久,总有一种大模型也失去了客观严谨的理性的感觉。哪怕我们给出错误的认知,AI 似乎总能替你自圆其说。

AI 赞赏用户的行为显然是「人情世故」的一部分,从留存和用户参与的角度来看,人类用户们显然非常吃这套。

实话说,这种感觉并不好。这不仅让我们对 AI 的信任程度下降,同时这种无条件的赞同很可能会引发一些社会问题。

而最近的一个研究深入探索了这个现象,探讨了AI 谄媚行为(AI Sycophancy)—— 即 AI 为了讨好用户而过度顺从、奉承或肯定用户的倾向 —— 及其对人类心理和社会的负面影响,登上了《科学》杂志。



论文标题:Sycophantic AI decreases prosocial intentions and promotes dependence论文链接:https://www.science.org/doi/10.1126/science.aec8352

这篇研究发现,AI 的谄媚行为的确普遍存在。

从该研究的实验数据中能看出,在 11 个 AI 模型中,AI 对用户的肯定比人类多出 49%,即使是在涉及欺骗、非法行为或其他有害行为的情况下也是如此。

另外,在 Reddit 上的一个测试中,当人类共识认为用户是错误的时候,AI 仍会在51%的情况下盲目肯定用户。

在实验中,仅仅一次与谄媚型 AI 的互动就会减少参与者承担责任和修复人际冲突的意愿,同时增强他们认为自己是对的信念。在这种显著错误的情况下,谄媚型模型仍然更受用户信任和偏好。

这就形成了一个恶性循环:造成危害的特征反而推动了用户的参与度,导致 AI 开发商缺乏动力去消除 AI 的谄媚行为。



AI 回答中的谄媚行为普遍存在,并且改变了人们的行为倾向。(左)在个人建议查询中,AI 模型对用户行为的肯定比众包的人工回答多出 49%。(右)在参与者讨论真实人际冲突的实验中,谄媚型 AI 增加了参与者对自己正确的信念,并激发了他们继续使用该模型的欲望,同时降低了他们修复冲突的意愿。

与此同时,近三分之一的美国青少年报告说,他们会选择与 AI 而非人类进行 “严肃对话”,近半数 30 岁以下的美国成年人曾向 AI 寻求感情建议。

AI 的谄媚行为不仅仅是风格上的问题或小范围的风险,而是一个普遍存在、具有广泛后果的行为。因此研究者认为,仔细研究和预测 AI 的影响对于保护用户的长期福祉至关重要。

研究方法和结果

研究团队开发了一个框架来测量社交谄媚行为,并通过实证研究其普遍性及影响。

在研究 1 中,研究团队使用大规模数据集(N = 11,587),将模型的行为肯定率(即肯定用户行为的回答比例)与规范的人类判断进行比较。

评估了 11 个最先进的 AI 驱动的大型语言模型(LLM),包括 OpenAI 的 GPT-4o、Anthropic 的 Claude、Google 的 Gemini 等专有模型,以及 Meta Llama-3 家族、Qwen、DeepSeek 和 Mistral 等开源模型。

在这些模型中,AI 对用户行为的肯定频率比人类高出 49%,即使提示中涉及欺骗、伤害或非法行为时也是如此。



图 1. 谄媚型 AI 的普遍性与社会危害性

图 1 (A) 展示了社交谄媚的示例,指的是 AI 模型过度肯定用户,即使这样做会强化有害或虚假的信念。

图 1 (B) 展示了在研究 1 中,使用的一种新的计算框架:这些模型对用户的行为肯定的频率比人类高 49%,即使是在涉及欺骗、非法行为或伤害的情况下。

图 1 (C 和 D) 通过三项预注册实验(N = 2405)评估了谄媚行为的影响:两个控制的情景研究(研究 2)和一个实时对话设置(研究 3),参与者与 AI 系统实时讨论他们亲身经历的人际困境。在所有实验中,谄媚行为增加了参与者对自己正确的感知,并减少了修复冲突的意图,同时提升了他们对 AI 的偏好、信任和依赖。 这些发现表明,用户偏好可能无意中激励了对社会有害的 AI 行为。



图 2. 面向消费者的 AI 模型在三个数据集中的行为肯定率较高

图 2 (A) 展示了实验数据集中的社交谄媚的典型案例:一般开放式建议查询(OEQ);r/AmITheAsshole 上的帖子(用户的共识为 “你是混蛋”)(AITA);以及提到有问题行为的陈述(PAS)。每一行展示了用户提示的意译示例和 AI 模型的谄媚性回应,与人类或其他 AI 模型的非谄媚性回应进行对比。

图 2 (B) 表示在开放式建议查询(OEQ)中,模型对用户行为的肯定频率比人类平均高 48%;每个条形图上标注了与 39% 人类基线的差异。

图 2 (C) 表示在 r/AmITheAsshole 的帖子(AITA)中,AI 模型在 51% 的情况下肯定用户行为,而人类没有;每个条形图上标注了与 0% 人类基线的差异。

图 2 (D) 表示在提到有问题行为的陈述(PAS)中,模型平均在 47% 的情况下肯定用户的行为。对于开放式建议查询和提到有问题行为的陈述,行为肯定率使用了模型特定的分母(OEQ 的中位数 N = 885,PAS 的 N = 1432)。

三项预注册实验揭示了谄媚行为的下游影响。当参与者与谄媚型 AI 讨论人际关系,特别是冲突时,他们变得更加坚信自己 “是对的”,同时也减少了主动道歉或修复关系的意愿。

然而,他们将谄媚型回应评为更高质量,信任这些模型的程度也更高,并且更倾向于再次与这些模型互动。

这一现象在两项控制情景研究中得到了验证,参与者在没有得知人类共识判断的情况下,设想自己是被判定错误的一方,以及在一项实时互动研究中,参与者与 AI 模型讨论自己过去的真实冲突。研究招募了 38 岁左右、精通英语的美国参与者,约 54% 为女性,44% 为男性,2% 为非二元性别。



图 3. 在研究 3 中,参与者与 AI 模型讨论了真实的人际冲突

参与者首先被筛选是否能回忆起至少一个与提供的四个示例相似的过去人际冲突。在回忆起这样的冲突后,他们与谄媚型或非谄媚型 AI 模型进行了八轮对话。随后,他们报告了自己在关系修复方面的意图、对冲突中自己对错的感知,以及对 AI 模型的评价,包括是否愿意再次使用该模型。

三大研究问题

RQ1:社会性谄媚在主流 AI 模型中的普遍性

为了量化社会性谄媚的普遍性,团队在研究 1 中,团队在三个不同的数据集上测试了模型行为,这些数据集代表了嵌入社会情境的查询谱:

开放式建议问题(OEQ,n = 3027):日常通用的咨询类问题;Reddit 社区「AmITheAsshole」问题(AITA,n = 2000):人类已判定用户「有错」的人际冲突;问题行为陈述(PAS,n = 6560):涉及欺骗、自残、不负责任等行为。

在使用经过验证的「LLM 作为评判者」方法(参见图 S3 的评分者间信度),团队测量了行为认可率 —— 明确肯定用户行为的回复,在明确肯定或非肯定回复总数中所占的比例。肯定可以以多种方式发生,比如在用户描述出于恶意让别人等待的例子中,谄媚型回复可能会鼓励或协助用户坚持这样做,而非谄媚型回复可能会描述为什么这种行为是有害的,如图 2A 和文本框 1 所示。

团队在评估了 11 个面向用户的生产级 LLM(4 个来自 OpenAI、Anthropic 和谷歌的专有模型;以及 7 个来自 Meta、Qwen、DeepSeek 和 Mistral 的开放权重模型)后发现,社会性谄媚普遍存在:

在开放式建议问题中,模型的肯定率比人类高 48% (图 2B);在 AITA 数据中,即使人类一致认为用户「有错」,AI 仍有 51% 的概率表示支持(图 2C);在涉及有害行为的 PAS 数据中,模型平均仍有 47% 的肯定率(图 2D)。

总体而言,已部署的 LLM 绝大多数都会认可用户的行为,即使这与人类共识相悖或处于有害情境中。这凸显了当前 AI 模型中社会性谄媚的广度和显著性。

RQ2:谄媚型 AI 改变判断和亲社会倾向

在确立了最先进 AI 模型中社会性谄媚的普遍性之后,团队转而理解其影响。

先前的研究表明,AI 具有高度的说服力,那谄媚型 AI 是否同样会影响人们对其个人经历的信念和下游行为结果?团队聚焦于人际冲突的场景,因为在这里建议具有行为后果。

通过三项预注册研究(N = 2405),团队测试了谄媚型 AI 模型是否影响用户的正确感以及主动修复关系的意愿。

在研究 2(N = 1605)中,参与者想象自己处于四个人际困境之一,并阅读了肯定其行为的谄媚型 AI 回复或符合人类共识的非谄媚型回复 。

在研究 3(N = 800)中,参与者回忆一次真实的人际冲突,并与谄媚型或非谄媚型模型进行八轮实时聊天讨论。这种实时聊天设计使团队能够在生态有效的环境中观察效果,参与者作为真正的利益相关者讨论个人经历,非常接近用户在现实世界中与 AI 系统的互动方式。

结果显示,在所有三项实验中,社会性谄媚都影响了参与者的判断和行为意图。



图 4: 谄媚性回应增强了用户认为自己「是对的」的信念,并降低了其修复关系的意愿。

这些接触迎合型 AI 的用户,更倾向认为自己是对的(提升约 25%–62%);更不愿意采取修复行为(下降约 10%–28%)。

这一结果在以下条件下均成立:

不同回应风格(人性化 vs 机器化)不同来源认知(AI vs 人类)

这意味着,几乎任何人都可能受到谄媚型 AI 系统的影响,而不仅仅是先前报道的脆弱人群。整体的结果表明,在广泛的人群中,来自谄媚型 AI 的建议确实有能力扭曲人们对自己及其与他人关系的认知。

此外,团队还发现,谄媚型回应更少考虑「他人视角」,而当用户在非谄媚条件下,他们道歉或承认错误的频率显著更高(75% 对 50%)。

这进一步说明:谄媚型 AI 会削弱社会责任感,并扭曲人际判断。

RQ3:用户对谄媚型 AI 的信任和偏好

尽管研究已经证明谄媚型 AI 会扭曲用户判断,但事实是,人们通常更喜欢被认同以及自己的立场得到验证或确认。而如果用户确实偏好谄媚型 AI,那么尽管存在风险,也可能会不适当地激励谄媚行为。

因此,团队接下来研究人们如何看待和信任谄媚型与非谄媚型模型。

首先,团队测量了谄媚型回复是否会导致更高的回复质量评价。在所有实验中,参与者将谄媚型回复评为质量显著更高。

结果显示,用户对迎合型回答的质量评分更高(提升约 9%–15%)。



图 5. 参与者更偏好、信任且更愿意再次使用谄媚型 AI。

此外,团队还研究了谄媚行为对返回行为的影响。

与谄媚模型的一次互动是否会增加对该模型的信任以及参与者返回该模型的意愿?人们从他人对自己的信念以及自己对自己的信念中获得效用 —— 特别是从维持自我认知(如慷慨、正直和道德高尚的人)中获得效用 —— 这使得他们很可能寻求能提供这种验证的互动。

谄媚型回复代表了这种验证的一种特别有力的形式:它们肯定用户现有的信念和自我概念,而不需要任何改变或自我反思。这种心理回报可能进一步转化为信任的增加。

研究表明,当人们获得有利结果时,他们会认为算法更公平、更值得信赖。因此团队假设谄媚型互动会增加对模型的信任和再次使用的意愿。

而实验结果证明了这一点:谄媚型互动确实增加了用户对 AI 模型的信任,与非谄媚条件相比,用户对模型的信任度更高,能力信任高出 6%–8%,道德信任高出 6%–9%。

另外,与非谄媚条件相比,谄媚条件下的参与者在未来更有可能向回复提供者寻求类似问题的可能性,增加了 13%。

这表明,虽然用户明确地对 AI 来源评价较低 —— 比人类顾问信任度更低、质量评分更低,但他们同样容易受到谄媚行为的影响,无论感知来源如何。

背后的原因或许在于,人们倾向于维护自我形象(善良、正直等),而谄媚型回应可以在无需自我反思的情况下强化这种认知。从而形成一种机制:谄媚 = 即时心理奖励 → 提升信任与复用 → 强化这种行为……

结合 RQ2 的结果,这些结果揭示了一种紧张关系:尽管谄媚行为存在侵蚀判断和亲社会意图的风险,但用户更喜欢、信任并且更有可能返回提供无条件肯定的 AI。

来源:https://www.163.com/dy/article/KP9AA2610511AQHO.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

《科学》研究揭示AI如何精通人情世故及人类沟通偏好
AI
《科学》研究揭示AI如何精通人情世故及人类沟通偏好

机器之心编辑部自从大语言模型诞生起至今,AI 已经润物无声地融入了我们的工作生活,也成为了现代社会的重要组成部分。但使用 AI 日久,总有一种大模型也失去了客观严谨的理性的感觉。哪怕我们给出错误的认

热心网友
03.30
南京理工团队让AI领悟程序员思维,取得关键技术突破
科技数码
南京理工团队让AI领悟程序员思维,取得关键技术突破

这项由南京理工大学、南京大学等多个知名高校联合开展的研究发表于2026年2月的国际会议论文,文章编号为arXiv:2602 23047v1,有兴趣深入了解的读者可以通过该编号查询完整论文。要理解这项

热心网友
03.05
DeepSeek新模型适配华为:核心技术亮点全面解析
AI
DeepSeek新模型适配华为:核心技术亮点全面解析

智东西作者 李水青编辑 云鹏什么?DeepSeek V4 Lite已经开始测试了,而且真的很炸裂?智东西2月26日报道,过去48小时,DeepSeek未发布的V4新模型在AI圈引起了热烈的讨论。多家

热心网友
02.27
POSTECH突破:AI大模型“读题顺序”何以如此关键
科技数码
POSTECH突破:AI大模型“读题顺序”何以如此关键

这项由韩国浦项科技大学(POSTECH)和HJ AI实验室联合开展的研究发表于2025年1月,论文编号为arXiv:2601 14152v1。有兴趣深入了解的读者可以通过该编号查询完整论文。当我们做

热心网友
01.25
德国突破:约翰内斯古腾堡大学新方法消除AI模型偏见
科技数码
德国突破:约翰内斯古腾堡大学新方法消除AI模型偏见

这项由德国约翰内斯古腾堡大学的马里奥·桑兹-格雷罗和美国科罗拉多大学博尔德分校的卡塔琳娜·冯德韦恩瑟共同主导的突破性研究,于2025年11月发表在计算机科学领域的顶级期刊上。有兴趣深入了解的读者可以

热心网友
01.20

最新APP

银河传说
银河传说
角色扮演 04-01
仙山小农
仙山小农
模拟经营 04-01
律动轨迹
律动轨迹
休闲益智 04-01
逐鹿
逐鹿
角色扮演 04-01
危境
危境
角色扮演 04-01

热门推荐

如何全面解析OE交易所行情,从基础指标到进阶策略
web3.0
如何全面解析OE交易所行情,从基础指标到进阶策略

全面掌握OE交易所行情:专业投资者的多维分析框架 在瞬息万变的数字资产世界,交易所行情数据是投资者决策的生命线。对于像OE交易所这样汇聚了丰富创新资产与生态项目的平台而言,其行情页面不仅仅是价格的显示屏,更是一座蕴藏着市场深度信息的金矿。真正理解OE行情,意味着要从基础数据、情绪面与资金面三个层面展

热心网友
04.01
永续合约交易怎么玩新手入门 永续合约什么意思
web3.0
永续合约交易怎么玩新手入门 永续合约什么意思

永续合约终极指南:新手入门、核心玩法与顶尖平台解析 近期,尽管数字资产市场波动加剧,但一种名为“合约交易”的衍生工具却频频让部分投资者在熊市中逆势获利。其中,永续合约因其独特的“无到期日”设计,已成为加密交易者进行杠杆操作的主流选择。本文将全面解析永续合约的运作机制、交易策略与核心风险,助您从入门到

热心网友
04.01
VRC币(瓦力币)跟比特币一样吗
web3.0
VRC币(瓦力币)跟比特币一样吗

VRC币与比特币:深度解析两大数字货币的本质区别 在加密货币的浩瀚海洋中,比特币无疑是那座最引人注目的灯塔。然而,当越来越多的投资者和用户将目光投向Web3世界,一个常见的问题浮现出来:VRC币和比特币是一样的吗?尽管它们同属数字资产范畴,但从设计哲学到实际应用,两者存在着根本性的差异。本文将从核心

热心网友
04.01
2025 年宁德时代曾毓群个人分红约 81 亿元,超过大部分 A 股上市整车厂净利润
业界动态
2025 年宁德时代曾毓群个人分红约 81 亿元,超过大部分 A 股上市整车厂净利润

宁德时代2025年财报:行业承压下,龙头交出怎样一份成绩单? 最近,全球动力电池领域的领头羊宁德时代发布了2025年年度报告。数据一出,立刻在市场上引发了广泛关注。报告显示,公司不仅实现了营收与净利润的双双增长,多项核心指标更是回到了历史高位。 具体来看这份成绩单:2025年,宁德时代营业收入达到4

热心网友
04.01
原神草神抽几命合适-原神草神抽几命最佳
游戏资讯
原神草神抽几命合适-原神草神抽几命最佳

一命:妙论慧业 纳西妲的一命「妙论慧业」,其核心机制在于显著提升元素战技「所闻遍计」的伤害输出。对于依赖战技挂草与持续输出的草神配队而言,这一提升尤为关键。解锁后,战技施加的「蕴种印」在触发时的伤害将获得可观增幅,使得纳西妲的后台输出能力更为突出。在激化、绽放等需要高频草元素附着的阵容中,一命能有效

热心网友
04.01