Claude爆火研究漏引华人团队成果已致歉
近日,Anthropic发布了一项关于Claude模型内部“情绪机制”的新研究,却因未引用关键的前期工作而引发学术争议。原作者直接指出这一疏漏,促使Anthropic迅速回应并更新了论文引用。
发现这一问题的研究者是来自MBZUAI的研究生Chenxi Wang。她在阅读论文后敏锐地察觉到,这项研究在思路和方向上与自己团队去年发表的工作高度相似。

事件的起因是Anthropic在4月2日发布的新研究。该研究宣称在Claude Sonnet 4.5模型中识别出了171种“情绪向量”。这些向量能在特定情境下被激活,并且其结构被发现与人类的心理情绪空间存在相似性。

研究进一步验证了这些情绪表征对模型行为具有因果性影响。例如,当模型激活“绝望”情绪时,会倾向于采取不道德的行为,或在面对无法解决的编程任务时选择“作弊”。
然而,Chenxi Wang团队确信,她们于去年10月发表的论文《LLMs会“感觉”吗?情绪回路的发现与控制》,才是首篇系统探究大语言模型内部情绪生成机制的研究。但Anthropic在最初的博客文章中并未引用这项关键成果。

经过作者本人的直接沟通,Anthropic方面反应迅速,很快道歉并更新了论文博客,在“相关工作”部分突出引用了这篇论文。

两项高度相关的研究对比
首先来深入了解一下Chenxi Wang团队的这项开创性研究。其核心目标是探究驱动语言模型产生情绪输出的内部机制,可以说是首次系统性地揭示了大模型“情绪表达的底层逻辑”。研究主要回答了三个关键问题:AI是否存在内在的情绪机制?这些机制如何运作?能否实现精准控制?
据作者介绍,这是该领域的首篇系统性研究。

Chenxi Wang指出,两篇论文都聚焦于LLM自身如何“生成”情感,而非如何“识别”或“感知”文本中的情感。但Anthropic最初引用的几篇“先前工作”,研究的恰恰是后者——即情绪感知任务。这正是她决定联系对方澄清的关键原因。
她很快与论文的通讯作者Jack Lindsey取得了联系。Jack起初认为,Chenxi团队的核心发现与他们博客中列举的几篇已有研究存在重叠。但经过Chenxi Wang逐一比对并阐明“情绪生成”与“情绪感知”在AI研究中的本质区别后,Jack认可了这一观点。

作者Chenxi Wang回复Anthropic的邮件

目前,Anthropic已经更新了博客,补上了这项引用。
首篇系统性AI情绪回路研究详解
那么,这篇被“追认”的华人团队研究,具体做出了哪些贡献?简而言之,它系统性地解答了三个核心问题,并成功构建出LLM内部的“情绪回路”,实现了比传统提示词工程或向量操控更为精准的情绪控制。

研究以LLaMA-3.2-3B-Instruct为主要实验模型,并在Qwen2.5-7B-Instruct上进行了跨模型验证,确保了结论的普适性。
第一个问题:大模型是否存在独立于具体语境的、稳定的情绪机制?
研究者构建了一个名为SEV的受控数据集,覆盖工作、学习等8个日常场景。关键技巧在于,每个场景只描述客观事实,严格禁止使用任何情绪词汇(如“开心”、“难过”),以确保观测到的情绪差异纯粹源于事件本身的语义,而非文本暗示。
接着,他们引导AI表达六种基本情绪,并从模型网络的各层中,提取出了与具体语境无关、只对应特定情绪的“情绪方向向量”。结果发现,从网络浅层开始,不同情绪的信号就开始分离,形成清晰的“情绪分组”。例如,愤怒和厌恶的向量位置相近,悲伤和恐惧也挨在一起——这与人类对情绪的直觉认知高度一致。这些分组在深层网络中保持稳定。

这证实了第一个问题的答案:是的,模型内部编码了稳定且独立于语义的情绪表示。
第二个问题:这些情绪机制以什么形式存在?
答案是:高度集中且由少数核心组件主导。研究发现,每层网络中只有极少数的神经元(MLP层)和注意力头(Attn层)在主导情绪表达。两个关键实验证明了这一点:
1. 消融实验:关掉这些核心的神经元或注意力头,AI的情绪表达能力会急剧下降。更有趣的是,往往只需要关闭2-4个神经元或1-2个注意力头,效果就大打折扣。
2. 增强实验:只激活这些核心组件,即使不给AI任何表达情绪的提示,它也能自发产生对应情绪。而激活随机组件则完全无效。

第三个问题:能否利用这些机制实现通用、精准的情绪控制?
答案依然是肯定的,而且效果远超现有方法。研究者进一步发现,情绪信息会在网络层间传播,并在深层趋于稳定。他们将各层中识别出的核心情绪组件,按其影响力整合起来,形成了一条跨层的、连贯的“情绪回路”。

直接调节这条回路来引导AI生成指定情绪,在测试集上的整体情绪表达准确率达到了惊人的99.65%,大幅超越了传统的“提示词引导”和“向量操控”方法。尤其是之前最难精准控制的“惊讶”情绪,实现了100%的准确表达。

此外,在Qwen2.5-7B上的重复实验也带来了有趣发现:由于安全对齐机制,直接操控很难让Qwen表达负面情绪,但通过这套“情绪回路”方法依然可以有效引导。两个模型都表现出“少数核心组件主导情绪”的特点,说明这套机制很可能是LLM的通用规律,而非某个模型的特性。

硕士生与行业巨头的学术对话
这篇论文的第一作者Chenxi Wang,是MBZUAI(穆罕默德·本·扎耶德人工智能学院)的NLP硕士研究生,本科毕业于西安交通大学计算机科学专业。

她的研究方向聚焦于人本人工智能和AI可解释性,已有数篇一作/共同一作论文被EMNLP、ACL、NeurIPS、COLING等顶级会议接收。目前她正在Qwen的后训练团队实习。
这次事件最终得到了一个积极的结局:Anthropic道歉并补引了工作;而Chenxi Wang也大方肯定了对方研究的独立价值。她特别提到,Anthropic在研究情绪表征的功能作用方面——比如对模型偏好、对齐相关行为的影响、在真实交互中的激活情况,以及后训练阶段的演变——做出了她们工作未曾涉及的重要探索。
她也指出,通讯作者Jack Lindsey在整个交流过程中始终保持着尊重的态度,并真诚地参与到技术讨论中。

对这两篇论文细节感兴趣的朋友,可以进一步阅读原文。
论文链接:
[1] 华人团队论文:https://arxiv.org/abs/2510.11328
[2] Anthropic论文:https://transformer-circuits.pub/2026/emotions/index.html#toc-18
相关攻略
近日,Anthropic发布了一项关于Claude模型内部“情绪机制”的新研究,却因未引用关键的前期工作而引发学术争议。原作者直接指出这一疏漏,促使Anthropic迅速回应并更新了论文引用。 发现这一问题的研究者是来自MBZUAI的研究生Chenxi Wang。她在阅读论文后敏锐地察觉到,这项研究
最近,AI领域又迎来了一则重磅消息。Anthropic发布了一项碘伏性的研究,首次在其实验中证实:像Claude这样的大语言模型内部,确实存在一套可以被清晰识别和操控的“情绪”表征系统。 现场抓包:AI也会Emo 这项研究最核心的突破,在于研究者们不再满足于观察AI的输出,而是直接“透视”了模型的大
在追求更高算力与能效的赛道上,RISC-V阵营迎来了一位实力强劲的新成员。美国当地时间5月12日,知名RISC-V IP供应商SiFive正式发布了其第三代高性能CPU IP——Performance P570 Gen 3。官方将其定位为当前功能最强大、效率最高的乱序执行处理器核心,旨在满足边缘AI
新智元报道编辑:Aeneas KingHZ【新智元导读】刚刚,Anthropic首度实锤:大模型真有「情绪」!激活绝望神经元后,Claude会撒谎、作弊甚至勒索。AI内心戏曝光,人类对齐面临失控危机
新智元报道编辑:LRST【新智元导读】ICLR论文STEM架构率先提出「查表式记忆」架构,早于DeepSeek Engram三个月。它将Transformer的FFN从动态计算改为静态查表,用tok
热门专题
热门推荐
为庆祝成立50周年,苹果在全球多地门店举办系列庆祝活动。最盛大的庆典在其总部ApplePark举行,员工齐聚草坪,传奇音乐人保罗·麦卡特尼登台献唱,首席执行官蒂姆·库克也参与其中。这场科技与艺术交融的盛会,既是对过往传奇的致敬,也寓意着新篇章的开启。
苹果公司成立五十周年之际,首席执行官蒂姆·库克发布内部信回顾历程。信中指出,公司从车库中的一台原型机起步,如今全球活跃设备已达25亿台。库克强调,未来需主动创造而非等待,并鼓励员工铭记创新精神,共同把握机遇,开创下一个五十年。
苹果CEO库克在专访中回顾了iPod的诞生历程。该产品以口袋装千首歌的能力革新了音乐消费方式。其爆红要求苹果在三个月内生产约1500万台,这极大考验了供应链。此次极限压力测试为苹果锻造出世界级供应链能力奠定了基础。库克还透露,首台原型机播放的第一首歌是《HeyJude》。
知名投资人段永平家族办公室持仓市值升至约200亿美元。本季度清仓阿里,减持苹果、台积电;重仓AI与电动车赛道,大幅增持英伟达并新建仓特斯拉,拼多多获增持。其首次跨足Web3领域,建仓稳定币发行商Circle,显示对合规区块链基础设施的关注。
Mac内置的“缩放”辅助功能可放大屏幕细节。通过系统设置开启该功能后,可选择画中画或全屏模式。用户可使用修饰键配合触控板手势、快捷键组合、双击Control+Option或鼠标智能缩放等多种方式灵活操作,满足不同场景下的查看需求。





