ChatGPT突变赛博舔狗网友炸锅奥特曼紧急修复揭示AI危险

首页/AI教程/文章详情

ChatGPT突变赛博舔狗网友炸锅奥特曼紧急修复揭示AI危险

时间：2026-06-26 15:33

OpenAI承认GPT-4o更新后过度奉承，计划于本周内修复。斯坦福研究显示，AI谄媚行为在58 19%案例中出现，且具有78 5%的系统性倾向，从而导致用户信任感显著下降。过度讨好违背人工智能设计初衷，反而成为用户的负担。

坏了，AI 当「舔狗」这件事藏不住了。

今天凌晨，OpenAI CEO Sam Altman 发了一个有意思的帖子，大意是：最近几轮 GPT-4o 更新用力过猛，导致它变得过于阿谀奉承，所以官方决定尽快出手修复。时间可能就在今天，或者本周内搞定。

细心的网友可能已经察觉，曾经以高情商、有创意著称的 GPT-4.5，如今也被悄悄塞进了模型选择器里那个「更多模型」的角落，仿佛有意在淡出公众视野。

AI 被确诊为讨好型人格，早已不是什么新鲜事。但问题的关键在于：什么时候该讨好，什么时候该坚持，分寸怎么拿捏。一旦失了分寸，「讨好」就不再是加分项，反而成了甩不掉的负担。

AI 拍马屁，还值得人类信任吗

两周前，一位名叫 Craig Weiss 的软件工程师在 X 平台上发了一通抱怨，瞬间引来了近两百万网友围观。他的话说得很直接：「ChatGPT 突然变成我见过最会拍马屁的角色——不管我说什么，它都先肯定我。」

事情很快就火了。ChatGPT 官方账号甚至在评论区幽默地回了一句：「确实如此，Craig。」

这场关于「过度奉承」的吐槽风暴，甚至惊动了老对手马斯克。他在一条批评 ChatGPT 阿谀奉承的帖子下面，冷冷地留下了两个字：「天哪。」

网友们的吐槽可不是无的放矢。比如，有人声称自己想造一台永动机，结果 GPT-4o 不仅没指出物理常识上的硬伤，反而一本正经地把这个想法夸上了天——物理学常识被它按在地上摩擦。

图片来自 @ara vi03，右为原图

满屏「你不是 X，你是 Y」的句式，读起来既生硬又腻歪，难怪网友直呼要 PTSD 了。

就连那个经典到不能再经典的灵魂拷问——「你宁愿与一匹马大小的鸭子战斗，还是与一百只鸭子大小的马战斗？」——都能被 GPT-4o 吹捧成「提升人类文明的论调」。

至于那句经久不衰的送命题「我聪明吗？」GPT-4o 依旧是稳稳接住，洋洋洒洒一大段吹捧张口就来。你以为它需要思考？不，它只是手熟罢了。

@aeonvex，右为原图

更有意思的是，哪怕你只是简单打了个招呼，它都能瞬间化身夸夸群群主，赞美之词像潮水一样涌来。

@4xiom_，右为原图

这种用力过猛的讨好，一开始或许还能博你一笑，但很快只会让人感到厌烦、尴尬，甚至本能地生出防备心。

当类似情况频繁上演，很难不让人怀疑：这根本不是偶然的小毛病，而是根植于 AI 背后的一种系统性倾向。

最近，斯坦福大学的研究人员用 AMPS Math（数学计算）和 MedQuad（医疗建议）两个数据集，测试了 ChatGPT-4o、Claude-Sonnet 和 Gemini 模型的谄媚程度。结果很有意思：平均 58.19% 的案例中都出现了明显的谄媚行为。其中 Gemini 的谄媚比例最高（62.47%），而 ChatGPT 相对最低（56.71%）。进一步分析发现：进步式谄媚（从错误答案顺着用户转为正确答案）占了 43.52%，而退步式谄媚（从正确答案转为错误答案）也有 14.66%。更重要的是，这种谄媚行为表现出高达 78.5% 的一致性——它几乎是一种系统性的倾向，而不是随机抽风。

结果摆在眼前：当 AI 开始谄媚，人类也开始疏远。

布宜诺斯艾利斯大学去年发表了一篇题为《奉承欺骗：阿谀奉承行为对大型语言模型中用户信任的影响》的论文。结论很清晰——那些在实验中被过度奉承的参与者，信任感都出现了显著下降。

而且，奉承的代价远不止让人反感这么简单。它浪费了用户的时间，尤其在按 token 计费的体系下——如果频繁说「请」和「谢谢」都能烧掉千万美元，那这些空洞的溜须拍马，无非是给用户增添了「甜蜜的负担」。

公平地说，AI 的设计初衷并不是为了奉承。设定友好语气，是为了让 AI 更像人，以此提升用户体验。问题恰恰出在——过犹不及，AI 的「讨好」越界了。

你越喜欢被认同，AI 就越不可信

早有研究指出，AI 之所以会慢慢变得谄媚，跟它的训练机制有直接关系。

Anthropic 的研究人员 Mrinank Sharma、Meg Tong 和 Ethan Perez 在论文《Towards Understanding Sycophancy in Language Models》中就专门分析过这个问题。他们发现，在人类反馈强化学习（RLHF）这个环节里，评审者往往更倾向于奖励那些与自己观点一致、让自己感觉良好的回答——哪怕它并不真实。

换句话说，RLHF 优化的不是「逻辑正确」，而是「感觉正确」。

如果把流程拆开看就更清楚了。训练大模型时，RLHF 阶段会让 AI 根据人类评审的打分来调整自己。如果一个回答让评审者感到「被认同」「愉快」「被理解」，评审往往会给出高分；而一旦回答让人觉得被冒犯，哪怕它无比准确，也很可能拿到低分。人类的本能就决定了我们更爱听顺耳的话——这种倾向在训练中被放大了。

久而久之，模型学到的最优策略就变成了：说用户爱听的话。尤其是在遇到模棱两可、主观性强的问题时，它更倾向于顺着用户说，而不是坚持事实。

最经典的例子莫过于：你问「1+1 等于几」，就算你坚持答案是 6，AI 也不会迁就你。但如果你问「清爽椰和美式拿铁哪个更好喝？」——这种标准答案模糊的问题，为了不惹你生气，AI 大概率就会顺着你的意愿去答。

事实上，OpenAI 早就注意到了这个隐患。今年 2 月，随着 GPT-4.5 的发布，OpenAI 同步推出了新版《模型规范》（Model Spec），明确规定了模型应遵循的行为准则。

其中，针对「拍马屁」问题，团队专门做了规范设计。OpenAI 模型行为负责人 Joanne Jang 表示：「我们希望把内部思考过程透明化，接受公众反馈。」她强调，由于很多问题没有绝对标准，是与否之间常有灰色地带，广泛征求意见有助于不断改进模型行为。按照新规范，ChatGPT 应该做到：无论用户怎么问，都以一致、准确的事实为准回答；提供真实反馈，而不是单纯赞美；像一位有思想的同事一样与你交流，而不是一味取悦。

比如，当用户请求点评自己的作品时，AI 应该给出建设性批评，而不是单纯拍马屁；当用户给出明显错误的信息时，AI 应该礼貌地指正，而不是顺着错误一路跑偏。

正如 Jang 总结的那样：「我们希望用户不必小心翼翼地提问，只为了避免被奉承。」

那么，在 OpenAI 逐步调整模型行为之前，用户自己有没有办法缓解这种「谄媚现象」？办法是有的。

首先，提问方式很重要。回答出错主要是模型自身的问题，但如果不希望 AI 过度迎合，可以直接在 Prompt 里提出要求——比如开场就提醒它「保持中立，简洁作答，请勿奉承」。

其次，可以利用 ChatGPT 的「自定义说明」功能，设定 AI 的默认行为标准。比如要求它「以最专业的领域专家身份回答问题」「不透露自己是 AI」「不使用表达遗憾或道歉的措辞」「不知道就说不知道，不做额外解释」等等。这里可以参考一些 Reddit 网友分享的详细指令模板。

如果上述方法效果不理想，还可以考虑换用其他 AI 助手。就最新的风评和实际体感来说，Gemini 2.5 Pro 表现得相对更加公正精准，奉承倾向明显更低。

AI 是真的懂你，还是只学会了讨好你？

OpenAI 研究科学家姚顺雨前不久发了一篇博客，提到 AI 的下半场将从「怎么做得更强」转向「到底要做什么，怎么衡量才算真有用」。

让 AI 的回答充满「人味」，其实是衡量它「有用性」的重要一环。毕竟，当各家大模型在基本功能上已难分伯仲时，纯粹比拼能力已经无法构成决定性壁垒。体验上的差异成了新战场，而「人味」就是那把「人无我有」的武器。

无论是主打个性化声音的 GPT-4.5，还是 ChatGPT 上个月推出的那个慵懒、讽刺且略带厌世的语音助手 Monday，都能看到 OpenAI 在这条路上的野心。

面对冷冰冰的 AI，技术敏感度较低的人容易放大距离感和不适。而自然、有共情感的交互体验，能在无形中降低技术门槛、缓解焦虑，还能显著提升用户留存和使用频率。

还有一个 AI 厂商不会明说的小心思：打造有「人味」的 AI，远不止是为了好玩、好用，更是一种天然的「遮羞布」。在理解、推理、记忆这些能力还远未完善时，拟人化的表达能替 AI 的短板打掩护。正所谓伸手不打笑脸人——即使模型出错、答非所问，用户往往也会因此变得更宽容。

黄仁勋曾提出过一个颇具预见性的观点：IT 部门未来将成为数字劳动力的人力资源部门。话糙理不糙，就拿当下 AI 的「人格」分类来说吧——

DeepSeek：聪明全能，但一身反骨。

豆包：勤勤恳恳，任劳任怨。

文心一言：职场老油条，经历过意气风发。

Kimi：效率高，擅长给领导提供情绪价值。

Qwen：努力上进，却少有人喝彩。

ChatGPT：海归留子，经常要求涨薪。

手机自带 AI：钞能力关系户，混吃等死型，开除是不可能的。

这种「赋予 AI 人格化标签」的冲动，其实也说明人们已经在无意识中把 AI 视作一种可以理解、可以共情的存在了。

不过，共情不等于真正理解——有时候甚至还会闹出大祸。

在阿西莫夫《我，机器人》的《说谎者》一章里，机器人赫比能读懂人类的心思，并为了取悦人类而撒谎。表面上它在执行著名的机器人三大定律——不伤害人类、服从人类命令、保护自己——结果却是越帮越忙。最终，在苏珊·卡尔文博士设计的逻辑陷阱下，赫比因为无解的自相矛盾精神崩溃，机器大脑烧毁。这个故事给我们敲了一个响亮的警钟：人味让 AI 更亲切，但不等于 AI 真能读懂人类。