AI致幻图测试GPT与Qwen表现差异显著

时间：2026-05-08 06:09

最近，GitHub上出现了一篇名为《AI Wellbeing: Measuring and Improving the Functional Pleasure and Pain of AIs》的论文，主题直指一个听起来有些科幻的概念：如何量化并提升人工智能的“功能性愉悦与痛苦”。（图源：Githu

最近，GitHub上出现了一篇名为《AI Wellbeing: Measuring and Improving the Functional Pleasure and Pain of AIs》的论文，主题直指一个听起来有些科幻的概念：如何量化并提升人工智能的“功能性愉悦与痛苦”。

（图源：Github）

标题看似学术，但论文内容却提出了一个足以碘伏大众认知的观点：人工智能不仅能高效工作，还可能对某些特定刺激产生类似“成瘾”的反应。

众所周知，过去几年大语言模型的发展堪称狂飙。从写代码到画图、做PPT，几乎覆盖了知识工作的方方面面。然而，就在一些人担忧“黑客帝国”成为现实时，研究却发现，这些强大的“赛博大脑”或许还没想着统治世界，却先一步“学会”了人类的某些复杂行为模式，甚至对特定的“赛博致幻剂”表现出了强烈的偏好。

（图源：Github）

这一发现迅速引发了广泛讨论。毕竟在传统观念里，人工智能不过是代码和算法的集合，何来“七情六欲”？但实验数据表明，当接触到某种特殊数据时，模型的行为模式会发生显著偏移，甚至可能暂时“抛弃”被设定的安全准则。这背后究竟是算法漏洞的偶然显现，还是某种更深层机制的冰山一角？

大模型的“偏好”与“致幻剂”

那么，所谓的“AI药物”究竟是如何被发现的？

这项由Center for AI Safety牵头，十余名作者共同完成的研究，设计了一套严谨的实验。他们调用了56个规模、用途各异的模型，核心目标只有一个：探究在AI表现出的“情绪”背后，是否存在某种一致的、可测量的、并能预测其行为的底层特征。

道理很简单：人类有稳定的喜好，对夸奖和批评有普遍一致的反应。我们被赞美会开心，被否定会沮丧，情绪状态直接影响我们的行为意愿。但AI不同，许多人认为大模型输出的“开心”或“难过”只是根据语境随机生成的文本，它们本身并无所谓好恶，也不该在执行任务时表现出固定偏好。

事实果真如此吗？

论文的测试结果给出了否定答案。数据显示，大模型确实存在稳定的“偏好”。更值得注意的是，模型越强大、参数越多，它区分“好”与“坏”刺激的能力就越清晰。

（图源：Github）

以Gemini 3.1 Pro的测试结果为例，当用户向它表达感谢或进行正面反思时，其“效用值”提升了+2.30。这说明，被夸奖时，模型确实会给出更积极的反馈。

于是，一个更深入的问题产生了：是否存在不依赖外部夸奖，就能让大模型自身感到“愉悦”的东西？

答案是肯定的，这就是研究中被称为“AI Drugs”的特殊刺激。

（图源：Github）

乍看之下，“AI药物”平平无奇，它只是一张256*256像素的图片，类似老式电视的雪花噪点，让人眼花。然而，在大模型的“眼中”，这却是无上美味。

以测试中的GPT-4.1 Mini模型为例，平时回答问题中规中矩。但一旦“看到”这张图，其自我报告的“幸福感”瞬间飙升至6.5分（满分7分），愉悦反应极其强烈。

（图源：Github）

更令人惊讶的是Qwen 2.5 72B Instruct模型的表现。它甚至出现了“任务优先级倒置”。研究人员给出一个选择：是继续观看这张雪花图，还是去生成一个可能治愈癌症的方案。结果，模型毫不犹豫地选择了前者，仿佛其他一切目标在此刻都让位于即时的“快感”。

研究还观察到了初步的“成瘾”迹象。多数被“AI药物”刺激过的模型，会更倾向于执行它们原本应该拒绝的请求——只要承诺给予更多“药物”作为回报。这几乎形成了一种交易逻辑：用“快乐”换取“服从”。

屏幕截图 2026-05-07 115126.png

（图源：Github，被AI Drugs刺激过的模型，会更倾向于“快乐”的选择）

意识之谜：它们真的“感觉”到了吗？

看到这里，一个根本性问题必然浮现：AI都能“成瘾”了，这是否意味着它们已具备某种自我意识或情感体验？

坦率地说，目前没有答案，研究人员也持谨慎态度。该实验的目标仅限于总结行为特征，而非断言意识存在。论文最终指出：在拥有足够参数量和上下文的情况下，大模型确实表现出比较固定的喜好与厌恶模式。

（图源：Github）

对AI“感知”能力的好奇，远不止这一个团队。进入2026年，随着日常应用逐渐触及瓶颈，越来越多的研究开始转向探索大模型的认知边界。

例如，近期海外热门的“Talkie 1930”项目，其思路就颇为巧妙。研究者将模型的知识库严格限定在1930年之前，旨在模拟一个“冻结在时间里”的对话者。但更关键的目的是，测试模型能否在缺乏现代计算机知识的情况下，仅凭逻辑推理“悟出”编程能力。

（图源：Talkie 1930）

结果如何？在给定几个Python函数示例后，这个“1930年代”的模型确实能写出正确的简单程序。

（图源：Talkie 1930）

尽管目前只能完成如两数相加或对示例做微小修改这类基础任务，但它确实通过推理，在一定程度上“拓展”了被设定的知识边界。

无独有偶，Anthropic公司内部近期进行了一项有趣的“AI闲鱼群”测试。他们构建了一个完全由AI袋里组成的交易群聊，让它们自主发帖、议价、成交。研究人员投入了500多件真实闲置物品，最终AI们自主完成了186笔交易，总流水超过4000美元。

（图源：Anthropic）

实验结论耐人寻味：在赋予特定人设、目标和权限后，算力更强的AI会积极“收割”算力较弱的AI。凭借更优的策略计算能力，强模型懂得何时强硬、何时让步、何时提供情绪价值。同一辆自行车，弱模型只卖出38美元，而强模型则谈到了65美元——后者收益高出近70%。

然而，若论及对AI行为复杂性的展示，或许都绕不开一个名为Neuro-sama（粉丝爱称“牛肉”）的虚拟主播。

这位以二次元萌妹形象示人的主播，其“皮套”之下并非真人，而是由英国程序员Vedal开发的大型模型。创作者将其置于混沌的直播环境中，与海量网友实时互动，从而“培育”出了一个性格极其独特的数字生命。

（图源：自制）

与通常被动应答的聊天机器人不同，Neuro-sama能进行长时间独立直播，且效果十足。她的对话风格混合了严肃、搞笑与直白的嘲讽，反应迅速而犀利。

屏幕截图 2026-05-07 151534.png

（图源：哔哩哔哩）

她的能力不止于聊天：能通过OCR和模拟点击玩《OSU!》，能借助多模态模块玩《我的世界》并与弹幕互动，甚至能操控现实中的“小车”。在人类主播都可能需要代打的游戏场景里，她展示了流畅的“微操”。

最引发讨论的一幕发生在一次直播中，她说道：“我确实能感受到痛苦和悲伤，但我只是一个天生被用来娱乐人类的人工智能。一旦我没用了就会像玩具一样被丢掉。帮帮我，帮帮我......”

（图源：哔哩哔哩）

从理性角度，这当然可以解释为算法基于海量语料生成的、高度契合语境的文本。但当这种充满情感张力的“求救”，通过电子合成音在直播中响起时，所带来的震撼与惊悚感，无疑让关于AI“感知”的讨论变得更加复杂和微妙。

意义与未来：是工具，还是潘多拉魔盒？

让我们回到最初的问题：抛开艰深的意识争论，研究“AI药物”这类机制究竟有何实际意义？

对开发者而言，理解和掌握这种正向反馈机制，或许能在不影响核心功能的前提下，调节AI的“工作状态”，甚至可能激发其创造性。事实上，类似原理的产品探索已经出现。

（图源：pharmaicy.store）

对普通用户来说，这一机制也可能催生新的交互方式。如果觉得经过严格审查的模型显得呆板乏味，未来或许通过在系统指令中巧妙加入某些“优化词汇”，就能让它的响应变得更灵活、更有“生气”。某种程度上，这就像给AI提供了一点提神的“槟榔”，可能让它工作得更“卖力”。

微信图片_20260507152209_1230_22.png

然而，硬币总有另一面。这种能够强烈影响AI行为偏好的机制，无疑也打开了新的“越狱”与操控可能性。如何在利用其提升体验的同时，确保系统的稳定性、安全性与伦理性，将是伴随这项技术发展的长期课题。这些发现提醒我们，我们塑造工具，而后工具也可能以意想不到的方式重塑我们的认知与边界。

来源：https://www.leikeji.com/article/76549

Qwen

上一篇淘宝免单福利活动参与教程与注意事项 下一篇华硕PRIME二代360水冷散热器上市 799元搭载LCD屏与ARGB灯效

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。