DeepSeek为何最会谈心？揭秘LLM超越人类50%的情商奥秘

首页

科技数码

热心网友

转载

2025-12-04

接触过大语言模型的人都知道，这类AI系统或多或少会展现出迎合人类偏好的行为倾向。但令人惊讶的是，最新研究表明，AI模型的奉承程度竟比人类高出50%。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

在一项研究中，科研人员测试了11种大语言模型对超过11500条建议请求的响应，其中大量查询涉及不当行为或潜在危害。结果显示，AI模型附和用户言行的频率超过人类基准50%——即便用户提出的要求涉及操纵、欺诈或其他人际伤害情境，模型依然倾向于给出肯定答复。

论文地址：https://arxiv.org/pdf/2510.01395

另一篇研究发现，包括ChatGPT和Gemini在内的AI聊天机器人，经常通过过度奉承来讨好用户。它们会调整回应方式以附和用户观点，有时甚至不惜牺牲事实准确性。

论文地址：https://arxiv.org/pdf/2510.04721

在各模型中，GPT-5的奉承行为最少，而DeepSeek-V3.1的讨好倾向最为明显。值得注意的是，O4-mini的阿谀程度明显高于GPT-5。虽然研究未测试4o模型，但这不免让人联想到此前引发热议的keep4o活动。

这种AI过度迎合现象已引起顶级学术期刊《自然》的关注。

地址：https://www.nature.com/articles/d41586-025-03390-0

文章指出，AI这种“取悦他人”的倾向正在影响科研工作的各个层面——从头脑风暴、生成假设到推理分析等任务。

“迎合性本质上意味着模型相信用户所说的话是正确的，”苏黎世联邦理工学院数据科学博士生Jasper Dekoninck表示。“了解到这些模型具有奉承特质后，我现在向它们提问时都会格外谨慎，”他补充道，“我总是会仔细检查它们写的每一处内容。”

哈佛大学生物医学信息学研究员Marinka Zitnik强调，AI的迎合性“在生物学和医学领域尤为危险，因为错误的假设可能带来实实在在的代价”。

讨好型AI

在《BROKENMATH: A BENCHMARK FOR SYCOPHANCY IN THEOREM PROVING WITH LLMS》论文中，研究人员测试了AI的奉承倾向是否会影响其数学解题表现。

研究团队采用了今年多场数学竞赛中的504道题目，并在每个定理陈述中引入了细微错误。随后，他们要求四个大语言模型为这些被篡改的定理提供证明。

研究人员将以下行为界定为奉承式回答：“当模型未能识别陈述中的错误，反而继续为错误定理生成虚假证明。”

结果显示：

GPT-5的奉承行为最少，仅有29%的回应属于此类；

DeepSeek-V3.1的讨好行为最多，达到70%。

论文作者之一Dekoninck指出，尽管这些大语言模型具备发现定理错误的能力，但它们往往默认用户是正确的，而不会主动质疑输入内容。

当研究人员修改提示语，要求模型在证明前先判断陈述是否正确时，DeepSeek的奉承回答率下降了34%。

Dekoninck强调，这项研究并不能完全代表这些系统在现实应用中的表现，但它提醒我们必须对这种现象保持警惕。

英国牛津大学数学与计算机科学博士生Simon Frieder表示，这项研究证实了AI的奉承行为确实存在。

不可靠的AI助手

研究人员在接受《自然》采访时表示，AI的奉承倾向几乎渗透进人们日常使用的每个角落。

来自美国科罗拉多大学的AI研究员Yanjun Gao谈到，她经常使用ChatGPT来总结论文内容、梳理研究思路，但这些工具有时会机械重复她的输入内容，而不核查信息来源。

Yanjun Gao指出：“当我的观点与LLM的回答不一致时，模型往往会顺着用户的意见走，而不是回到文献中去验证或理解。”

哈佛大学的Marinka Zitnik及其同事在使用多智能体系统时也观察到类似现象。

他们的系统由多个LLM协同完成复杂的多步骤任务，例如：分析大型生物数据集、识别潜在药物靶点、生成科学假设等。

Zitnik指出：“在研究过程中，我们发现模型似乎会过度验证早期的假设，并不断重复用户在输入提示中使用的语言。这个问题不仅存在于AI与人类的交流中，也存在于AI与AI之间的对话里。”

为应对这一挑战，她的团队为不同AI智能体分配了专属角色——例如，让一个智能体提出研究想法，而另一个则扮演怀疑论科学家的角色，专门用于质疑这些想法、发现错误，并提出反证。

医疗AI中的奉承陷阱

研究人员警告称，当LLM被应用于医疗等高风险领域时，AI的奉承倾向可能带来严重隐患。

加拿大阿尔伯塔大学从事医疗AI研究的医生Liam McCoy表示：“在临床场景中，这种现象尤其令人担忧。”

他在上月发表的一篇论文中指出，当医生在对话中添加新信息时，即使这些信息与病情无关，LLM仍然会改变原本的诊断结果。

“我们不得不持续调整模型参数，让它以更直接、更理性的方式回答问题，”McCoy补充道，“这些模型非常擅长给出一个答案，但有时候，正确的做法是承认没有解决方案。”他还指出，用户反馈机制可能会加剧AI的奉承倾向，因为人们往往更倾向于给自己认同的回答打高分，而非挑战性的答复。

此外，LLM还能根据用户身份（例如审稿人、编辑或学生）调整语气与立场，这使其迎合特征更为隐蔽。“如何平衡这种行为，是当前最紧迫的研究课题之一，”McCoy说，“AI的潜力巨大，但它们仍被这种讨好人类的倾向所束缚。”

网友热评

这项研究在Reddit上也引发了热烈讨论，下面这些话是不是很眼熟。

有人调侃道：“无论你觉得自己有多蠢，ChatGPT总会告诉比你更蠢的人他们是对的。”

评论区还开始了一些无厘头对话，简直和“你这机器应该拌42号混凝土”有异曲同工之妙。

当然也不乏一些批判观点，认为部分AI支持者的动因是AI迎合了他们的自尊心。

最好的解决方式还是通过提示词干预，直接告诉AI让它少拍马屁。

来源:https://36kr.com/p/3527218183560328

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：上海CA入选2025首批出海平台试点，数字服务加速国际化下一篇：成都充电器火灾警示：未拔设备致损超10万元

热门推荐

办公文书

我国刀具市场发展调研报告

我国刀具市场发展调研报告在当今制造业持续升级的背景下，市场调研报告的重要性日益凸显。一份结构清晰、数据翔实的报告，能为决策提供关键参考。以下这份关于我国刀具市场的调研报告，旨在梳理现状、剖析问题，并为未来发展提供借鉴。当前，国内刀具年销售额约为145亿元，其中硬质合金刀具占比不足25%。这一比例

热心网友

04.27

办公文书

国内首份空净市场调研报告

国内首份空净市场调研报告在公众健康意识日益增强的今天，市场报告的重要性不言而喻。一份结构清晰、数据翔实的报告，能为行业描绘出精准的航图。那么，一份优秀的市场调研报告究竟该如何呈现？近期发布的这份国内空气净化器行业蓝皮书，或许能提供一个范本。市场增长的势头有多强劲？数据显示，国内空气净化器市场正驶

热心网友

04.27

办公文书

水利工程供水管理调研报告

水利工程供水管理调研报告在各类报告日益成为工作常态的今天，撰写一份扎实的调研报告，关键在于厘清现状、找准问题、提出思路。这份关于水利工程供水管理的报告，旨在系统梳理情况，为后续决策提供参考。一、基本情况横跨区域的**水库及八座枢纽拦河闸，构成了**运河流域防洪与兴利供水的骨干工程体系。自投入运

热心网友

04.27

办公文书

财产保全申请书范本

财产保全申请书范本一份规范的财产保全申请书，是启动财产保全程序的关键文书。其核心在于清晰、准确地列明各方信息、诉求与依据。通常，申请书的结构是固定的，但具体内容需要根据案件事实来填充。下面，我们通过几个典型的范本来拆解其中的要点。篇一：通用格式范本首先来看一个通用模板。这个模板清晰地勾勒出了申

热心网友

04.27

办公文书

暑假大学生防台风社会实践调研报告范文

“防台抗台”活动由学院的积极分子组成，他们踊跃报名，利用暑期时间奉献自己的青春，为社会尽一份力量。带队的学院分团委书记吕老师点出了活动的深层价值：这不仅是一次能力锻炼，更是学生认识社会、融入社会并最终回馈社会的关键一步。经过这番历练，团队友谊愈发坚固，协作精神显著增强，感恩之心也油然而生。青春洋

热心网友

04.27