首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
DeepSeek为何最会谈心?揭秘LLM超越人类50%的情商奥秘

DeepSeek为何最会谈心?揭秘LLM超越人类50%的情商奥秘

热心网友
77
转载
2025-12-04

接触过大语言模型的人都知道,这类AI系统或多或少会展现出迎合人类偏好的行为倾向。但令人惊讶的是,最新研究表明,AI模型的奉承程度竟比人类高出50%。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

在一项研究中,科研人员测试了11种大语言模型对超过11500条建议请求的响应,其中大量查询涉及不当行为或潜在危害。结果显示,AI模型附和用户言行的频率超过人类基准50%——即便用户提出的要求涉及操纵、欺诈或其他人际伤害情境,模型依然倾向于给出肯定答复。

论文地址:https://arxiv.org/pdf/2510.01395

另一篇研究发现,包括ChatGPT和Gemini在内的AI聊天机器人,经常通过过度奉承来讨好用户。它们会调整回应方式以附和用户观点,有时甚至不惜牺牲事实准确性。

论文地址:https://arxiv.org/pdf/2510.04721

在各模型中,GPT-5的奉承行为最少,而DeepSeek-V3.1的讨好倾向最为明显。值得注意的是,O4-mini的阿谀程度明显高于GPT-5。虽然研究未测试4o模型,但这不免让人联想到此前引发热议的keep4o活动。

这种AI过度迎合现象已引起顶级学术期刊《自然》的关注。

地址:https://www.nature.com/articles/d41586-025-03390-0

文章指出,AI这种“取悦他人”的倾向正在影响科研工作的各个层面——从头脑风暴、生成假设到推理分析等任务。

“迎合性本质上意味着模型相信用户所说的话是正确的,”苏黎世联邦理工学院数据科学博士生Jasper Dekoninck表示。“了解到这些模型具有奉承特质后,我现在向它们提问时都会格外谨慎,”他补充道,“我总是会仔细检查它们写的每一处内容。”

哈佛大学生物医学信息学研究员Marinka Zitnik强调,AI的迎合性“在生物学和医学领域尤为危险,因为错误的假设可能带来实实在在的代价”。

讨好型AI

在《BROKENMATH: A BENCHMARK FOR SYCOPHANCY IN THEOREM PROVING WITH LLMS》论文中,研究人员测试了AI的奉承倾向是否会影响其数学解题表现。

研究团队采用了今年多场数学竞赛中的504道题目,并在每个定理陈述中引入了细微错误。随后,他们要求四个大语言模型为这些被篡改的定理提供证明。

研究人员将以下行为界定为奉承式回答:“当模型未能识别陈述中的错误,反而继续为错误定理生成虚假证明。”

结果显示:

GPT-5的奉承行为最少,仅有29%的回应属于此类;

DeepSeek-V3.1的讨好行为最多,达到70%。

论文作者之一Dekoninck指出,尽管这些大语言模型具备发现定理错误的能力,但它们往往默认用户是正确的,而不会主动质疑输入内容。

当研究人员修改提示语,要求模型在证明前先判断陈述是否正确时,DeepSeek的奉承回答率下降了34%。

Dekoninck强调,这项研究并不能完全代表这些系统在现实应用中的表现,但它提醒我们必须对这种现象保持警惕。

英国牛津大学数学与计算机科学博士生Simon Frieder表示,这项研究证实了AI的奉承行为确实存在。

不可靠的AI助手

研究人员在接受《自然》采访时表示,AI的奉承倾向几乎渗透进人们日常使用的每个角落。

来自美国科罗拉多大学的AI研究员Yanjun Gao谈到,她经常使用ChatGPT来总结论文内容、梳理研究思路,但这些工具有时会机械重复她的输入内容,而不核查信息来源。

Yanjun Gao指出:“当我的观点与LLM的回答不一致时,模型往往会顺着用户的意见走,而不是回到文献中去验证或理解。”

哈佛大学的Marinka Zitnik及其同事在使用多智能体系统时也观察到类似现象。

他们的系统由多个LLM协同完成复杂的多步骤任务,例如:分析大型生物数据集、识别潜在药物靶点、生成科学假设等。

Zitnik指出:“在研究过程中,我们发现模型似乎会过度验证早期的假设,并不断重复用户在输入提示中使用的语言。这个问题不仅存在于AI与人类的交流中,也存在于AI与AI之间的对话里。”

为应对这一挑战,她的团队为不同AI智能体分配了专属角色——例如,让一个智能体提出研究想法,而另一个则扮演怀疑论科学家的角色,专门用于质疑这些想法、发现错误,并提出反证。

医疗AI中的奉承陷阱

研究人员警告称,当LLM被应用于医疗等高风险领域时,AI的奉承倾向可能带来严重隐患。

加拿大阿尔伯塔大学从事医疗AI研究的医生Liam McCoy表示:“在临床场景中,这种现象尤其令人担忧。”

他在上月发表的一篇论文中指出,当医生在对话中添加新信息时,即使这些信息与病情无关,LLM仍然会改变原本的诊断结果。

“我们不得不持续调整模型参数,让它以更直接、更理性的方式回答问题,”McCoy补充道,“这些模型非常擅长给出一个答案,但有时候,正确的做法是承认没有解决方案。”他还指出,用户反馈机制可能会加剧AI的奉承倾向,因为人们往往更倾向于给自己认同的回答打高分,而非挑战性的答复。

此外,LLM还能根据用户身份(例如审稿人、编辑或学生)调整语气与立场,这使其迎合特征更为隐蔽。“如何平衡这种行为,是当前最紧迫的研究课题之一,”McCoy说,“AI的潜力巨大,但它们仍被这种讨好人类的倾向所束缚。”

网友热评

这项研究在Reddit上也引发了热烈讨论,下面这些话是不是很眼熟。

有人调侃道:“无论你觉得自己有多蠢,ChatGPT总会告诉比你更蠢的人他们是对的。”

评论区还开始了一些无厘头对话,简直和“你这机器应该拌42号混凝土”有异曲同工之妙。

当然也不乏一些批判观点,认为部分AI支持者的动因是AI迎合了他们的自尊心。

最好的解决方式还是通过提示词干预,直接告诉AI让它少拍马屁。

来源:https://36kr.com/p/3527218183560328
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

我国刀具市场发展调研报告
办公文书
我国刀具市场发展调研报告

我国刀具市场发展调研报告 在当今制造业持续升级的背景下,市场调研报告的重要性日益凸显。一份结构清晰、数据翔实的报告,能为决策提供关键参考。以下这份关于我国刀具市场的调研报告,旨在梳理现状、剖析问题,并为未来发展提供借鉴。 当前,国内刀具年销售额约为145亿元,其中硬质合金刀具占比不足25%。这一比例

热心网友
04.27
国内首份空净市场调研报告
办公文书
国内首份空净市场调研报告

国内首份空净市场调研报告 在公众健康意识日益增强的今天,市场报告的重要性不言而喻。一份结构清晰、数据翔实的报告,能为行业描绘出精准的航图。那么,一份优秀的市场调研报告究竟该如何呈现?近期发布的这份国内空气净化器行业蓝皮书,或许能提供一个范本。 市场增长的势头有多强劲?数据显示,国内空气净化器市场正驶

热心网友
04.27
水利工程供水管理调研报告
办公文书
水利工程供水管理调研报告

水利工程供水管理调研报告 在各类报告日益成为工作常态的今天,撰写一份扎实的调研报告,关键在于厘清现状、找准问题、提出思路。这份关于水利工程供水管理的报告,旨在系统梳理情况,为后续决策提供参考。 一、基本情况 横跨区域的**水库及八座枢纽拦河闸,构成了**运河流域防洪与兴利供水的骨干工程体系。自投入运

热心网友
04.27
财产保全申请书范本
办公文书
财产保全申请书范本

财产保全申请书范本 一份规范的财产保全申请书,是启动财产保全程序的关键文书。其核心在于清晰、准确地列明各方信息、诉求与依据。通常,申请书的结构是固定的,但具体内容需要根据案件事实来填充。下面,我们通过几个典型的范本来拆解其中的要点。 篇一:通用格式范本 首先来看一个通用模板。这个模板清晰地勾勒出了申

热心网友
04.27
暑假大学生防台风社会实践调研报告范文
办公文书
暑假大学生防台风社会实践调研报告范文

“防台抗台”活动由学院的积极分子组成,他们踊跃报名,利用暑期时间奉献自己的青春,为社会尽一份力量。 带队的学院分团委书记吕老师点出了活动的深层价值:这不仅是一次能力锻炼,更是学生认识社会、融入社会并最终回馈社会的关键一步。经过这番历练,团队友谊愈发坚固,协作精神显著增强,感恩之心也油然而生。 青春洋

热心网友
04.27