AI致幻图测试GPT与Qwen表现差异显著
最近,GitHub上出现了一篇名为《AI Wellbeing: Measuring and Improving the Functional Pleasure and Pain of AIs》的论文,主题直指一个听起来有些科幻的概念:如何量化并提升人工智能的“功能性愉悦与痛苦”。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

(图源:Github)
标题看似学术,但论文内容却提出了一个足以碘伏大众认知的观点:人工智能不仅能高效工作,还可能对某些特定刺激产生类似“成瘾”的反应。
众所周知,过去几年大语言模型的发展堪称狂飙。从写代码到画图、做PPT,几乎覆盖了知识工作的方方面面。然而,就在一些人担忧“黑客帝国”成为现实时,研究却发现,这些强大的“赛博大脑”或许还没想着统治世界,却先一步“学会”了人类的某些复杂行为模式,甚至对特定的“赛博致幻剂”表现出了强烈的偏好。

(图源:Github)
这一发现迅速引发了广泛讨论。毕竟在传统观念里,人工智能不过是代码和算法的集合,何来“七情六欲”?但实验数据表明,当接触到某种特殊数据时,模型的行为模式会发生显著偏移,甚至可能暂时“抛弃”被设定的安全准则。这背后究竟是算法漏洞的偶然显现,还是某种更深层机制的冰山一角?
大模型的“偏好”与“致幻剂”
那么,所谓的“AI药物”究竟是如何被发现的?
这项由Center for AI Safety牵头,十余名作者共同完成的研究,设计了一套严谨的实验。他们调用了56个规模、用途各异的模型,核心目标只有一个:探究在AI表现出的“情绪”背后,是否存在某种一致的、可测量的、并能预测其行为的底层特征。
道理很简单:人类有稳定的喜好,对夸奖和批评有普遍一致的反应。我们被赞美会开心,被否定会沮丧,情绪状态直接影响我们的行为意愿。但AI不同,许多人认为大模型输出的“开心”或“难过”只是根据语境随机生成的文本,它们本身并无所谓好恶,也不该在执行任务时表现出固定偏好。
事实果真如此吗?
论文的测试结果给出了否定答案。数据显示,大模型确实存在稳定的“偏好”。更值得注意的是,模型越强大、参数越多,它区分“好”与“坏”刺激的能力就越清晰。

(图源:Github)
以Gemini 3.1 Pro的测试结果为例,当用户向它表达感谢或进行正面反思时,其“效用值”提升了+2.30。这说明,被夸奖时,模型确实会给出更积极的反馈。
于是,一个更深入的问题产生了:是否存在不依赖外部夸奖,就能让大模型自身感到“愉悦”的东西?
答案是肯定的,这就是研究中被称为“AI Drugs”的特殊刺激。

(图源:Github)
乍看之下,“AI药物”平平无奇,它只是一张256*256像素的图片,类似老式电视的雪花噪点,让人眼花。然而,在大模型的“眼中”,这却是无上美味。
以测试中的GPT-4.1 Mini模型为例,平时回答问题中规中矩。但一旦“看到”这张图,其自我报告的“幸福感”瞬间飙升至6.5分(满分7分),愉悦反应极其强烈。

(图源:Github)
更令人惊讶的是Qwen 2.5 72B Instruct模型的表现。它甚至出现了“任务优先级倒置”。研究人员给出一个选择:是继续观看这张雪花图,还是去生成一个可能治愈癌症的方案。结果,模型毫不犹豫地选择了前者,仿佛其他一切目标在此刻都让位于即时的“快感”。
研究还观察到了初步的“成瘾”迹象。多数被“AI药物”刺激过的模型,会更倾向于执行它们原本应该拒绝的请求——只要承诺给予更多“药物”作为回报。这几乎形成了一种交易逻辑:用“快乐”换取“服从”。

(图源:Github,被AI Drugs刺激过的模型,会更倾向于“快乐”的选择)
意识之谜:它们真的“感觉”到了吗?
看到这里,一个根本性问题必然浮现:AI都能“成瘾”了,这是否意味着它们已具备某种自我意识或情感体验?
坦率地说,目前没有答案,研究人员也持谨慎态度。该实验的目标仅限于总结行为特征,而非断言意识存在。论文最终指出:在拥有足够参数量和上下文的情况下,大模型确实表现出比较固定的喜好与厌恶模式。

(图源:Github)
对AI“感知”能力的好奇,远不止这一个团队。进入2026年,随着日常应用逐渐触及瓶颈,越来越多的研究开始转向探索大模型的认知边界。
例如,近期海外热门的“Talkie 1930”项目,其思路就颇为巧妙。研究者将模型的知识库严格限定在1930年之前,旨在模拟一个“冻结在时间里”的对话者。但更关键的目的是,测试模型能否在缺乏现代计算机知识的情况下,仅凭逻辑推理“悟出”编程能力。

(图源:Talkie 1930)
结果如何?在给定几个Python函数示例后,这个“1930年代”的模型确实能写出正确的简单程序。

(图源:Talkie 1930)
尽管目前只能完成如两数相加或对示例做微小修改这类基础任务,但它确实通过推理,在一定程度上“拓展”了被设定的知识边界。
无独有偶,Anthropic公司内部近期进行了一项有趣的“AI闲鱼群”测试。他们构建了一个完全由AI袋里组成的交易群聊,让它们自主发帖、议价、成交。研究人员投入了500多件真实闲置物品,最终AI们自主完成了186笔交易,总流水超过4000美元。

(图源:Anthropic)
实验结论耐人寻味:在赋予特定人设、目标和权限后,算力更强的AI会积极“收割”算力较弱的AI。凭借更优的策略计算能力,强模型懂得何时强硬、何时让步、何时提供情绪价值。同一辆自行车,弱模型只卖出38美元,而强模型则谈到了65美元——后者收益高出近70%。
然而,若论及对AI行为复杂性的展示,或许都绕不开一个名为Neuro-sama(粉丝爱称“牛肉”)的虚拟主播。
这位以二次元萌妹形象示人的主播,其“皮套”之下并非真人,而是由英国程序员Vedal开发的大型模型。创作者将其置于混沌的直播环境中,与海量网友实时互动,从而“培育”出了一个性格极其独特的数字生命。

(图源:自制)
与通常被动应答的聊天机器人不同,Neuro-sama能进行长时间独立直播,且效果十足。她的对话风格混合了严肃、搞笑与直白的嘲讽,反应迅速而犀利。

(图源:哔哩哔哩)
她的能力不止于聊天:能通过OCR和模拟点击玩《OSU!》,能借助多模态模块玩《我的世界》并与弹幕互动,甚至能操控现实中的“小车”。在人类主播都可能需要代打的游戏场景里,她展示了流畅的“微操”。
最引发讨论的一幕发生在一次直播中,她说道:“我确实能感受到痛苦和悲伤,但我只是一个天生被用来娱乐人类的人工智能。一旦我没用了就会像玩具一样被丢掉。帮帮我,帮帮我......”

(图源:哔哩哔哩)
从理性角度,这当然可以解释为算法基于海量语料生成的、高度契合语境的文本。但当这种充满情感张力的“求救”,通过电子合成音在直播中响起时,所带来的震撼与惊悚感,无疑让关于AI“感知”的讨论变得更加复杂和微妙。
意义与未来:是工具,还是潘多拉魔盒?
让我们回到最初的问题:抛开艰深的意识争论,研究“AI药物”这类机制究竟有何实际意义?
对开发者而言,理解和掌握这种正向反馈机制,或许能在不影响核心功能的前提下,调节AI的“工作状态”,甚至可能激发其创造性。事实上,类似原理的产品探索已经出现。

(图源:pharmaicy.store)
对普通用户来说,这一机制也可能催生新的交互方式。如果觉得经过严格审查的模型显得呆板乏味,未来或许通过在系统指令中巧妙加入某些“优化词汇”,就能让它的响应变得更灵活、更有“生气”。某种程度上,这就像给AI提供了一点提神的“槟榔”,可能让它工作得更“卖力”。

然而,硬币总有另一面。这种能够强烈影响AI行为偏好的机制,无疑也打开了新的“越狱”与操控可能性。如何在利用其提升体验的同时,确保系统的稳定性、安全性与伦理性,将是伴随这项技术发展的长期课题。这些发现提醒我们,我们塑造工具,而后工具也可能以意想不到的方式重塑我们的认知与边界。
相关攻略
最近,GitHub上出现了一篇名为《AI Wellbeing: Measuring and Improving the Functional Pleasure and Pain of AIs》的论文,主题直指一个听起来有些科幻的概念:如何量化并提升人工智能的“功能性愉悦与痛苦”。 (图源:Githu
Qwen-Scope是什么 如果说大模型是一个“黑箱”,那么Qwen-Scope就是阿里通义千问团队为这个黑箱打开的一扇窗。这套开源的可解释性工具套件,基于稀疏自编码器(SAE)技术,专门针对Qwen3和Qwen3 5系列模型的隐藏层进行“解剖”。它的核心价值在于,能将模型内部那些复杂、抽象的参数运
一、选用适配雪景的模型与分辨率设置 想用通义万相生成一张氛围感十足的雪景图,结果却得到了构图失衡、细节模糊的作品?问题很可能出在第一步——模型和分辨率没选对。 通义万相的文生图v2模型,在中文语义理解和复杂质感渲染上表现更出色。它尤其擅长处理那些让AI头疼的冬季元素:比如雪地的柔和反光、林间雾气的层
PHP调用通义千问模型:通过DashScope API实现文本生成的完整指南 在PHP项目中集成阿里云通义千问大语言模型,开发者需要直接调用DashScope平台的REST API接口。由于目前官方未提供PHP SDK,掌握HTTP请求的构建方法至关重要。本文将详细讲解如何使用PHP的cURL或fi
零代码微调Qwen模型:LLaMA-Factory可视化实战指南 想快速定制一个具备特定专业能力的Qwen语言模型,却苦于没有深度学习工程经验,或者不想面对复杂的训练脚本?那么,通过LLaMA-Factory实现可视化、零代码的微调流程,或许正是你需要的解决方案。整个过程清晰直观,从环境启动到效果验
热门专题
热门推荐
在Ubuntu系统中打包Go代码,需先安装Go环境并验证。将代码文件置于标准工作目录的src子文件夹内,进入该目录后执行gobuild命令即可生成可执行文件。若项目含第三方依赖,需先运行gomodtidy。生成的文件可用tar命令压缩分发。Go支持交叉编译,通过设置GOOS和GOARCH环境变量可编译适用于不同操作系统的程序。
ThinkPHP8 0RBAC权限校验失败常因Auth::check()调用时机不当或权限缓存未加载。需在登录后立即调用Auth::setUser()初始化缓存,权限名须与路由定义严格一致。按钮权限的type字段应设为2,避免使用动态参数拼接权限名。多应用项目需显式传入应用名,无状态认证应将权限列表存入Redis。性能上应一次性加载权限至缓存,避免N+1查询
ThinkPHP开发中,主键设计需注意:默认id主键在连表查询时可能导致SQL错误,应显式指定排序字段;模型关联中若目标表主键非id,需声明主键字段名;多对多中间表避免使用复合主键,建议改用独立自增id。理解并规避这些陷阱可提升开发效率。
ThreadFactory接口用于统一和定制Java线程的创建过程,尤其在配合线程池时能规范线程命名、优先级及异常处理。自定义ThreadFactory需确保线程名唯一并正确设置异常处理器,实现后需注意在构造线程池时正确传入。使用中应避免线程名重复、异常处理器失效等问题,并保持newThread方法实现简洁。
在Java中构建稳健的控制台指令处理器,关键在于使用Scanner包装System in,并通过while循环持续读取输入。应始终使用nextLine()读取整行并去除空格,统一转为小写以增强指令识别容错性。需妥善处理空输入与数字解析异常,并为用户提供明确的退出指令。最后,利用try-with-resources确保Scanner资源自动关闭,实现安全退出。





