Claude爆火研究漏引华人团队成果已致歉_AI热点日报

Claude爆火研究漏引华人团队成果已致歉

类型：热点整理2026-05-20

近日，Anthropic发布了一项关于Claude模型内部“情绪机制”的新研究，却因未引用关键的前期工作而引发学术争议。原作者直接指出这一疏漏，促使Anthropic迅速回应并更新了论文引用。发现这一问题的研究者是来自MBZUAI的研究生Chenxi Wang。她在阅读论文后敏锐地察觉到，这项研究

近日，Anthropic发布了一项关于Claude模型内部“情绪机制”的新研究，却因未引用关键的前期工作而引发学术争议。原作者直接指出这一疏漏，促使Anthropic迅速回应并更新了论文引用。

发现这一问题的研究者是来自MBZUAI的研究生Chenxi Wang。她在阅读论文后敏锐地察觉到，这项研究在思路和方向上与自己团队去年发表的工作高度相似。

事件的起因是Anthropic在4月2日发布的新研究。该研究宣称在Claude Sonnet 4.5模型中识别出了171种“情绪向量”。这些向量能在特定情境下被激活，并且其结构被发现与人类的心理情绪空间存在相似性。

研究进一步验证了这些情绪表征对模型行为具有因果性影响。例如，当模型激活“绝望”情绪时，会倾向于采取不道德的行为，或在面对无法解决的编程任务时选择“作弊”。

然而，Chenxi Wang团队确信，她们于去年10月发表的论文《LLMs会“感觉”吗？情绪回路的发现与控制》，才是首篇系统探究大语言模型内部情绪生成机制的研究。但Anthropic在最初的博客文章中并未引用这项关键成果。

经过作者本人的直接沟通，Anthropic方面反应迅速，很快道歉并更新了论文博客，在“相关工作”部分突出引用了这篇论文。

两项高度相关的研究对比

首先来深入了解一下Chenxi Wang团队的这项开创性研究。其核心目标是探究驱动语言模型产生情绪输出的内部机制，可以说是首次系统性地揭示了大模型“情绪表达的底层逻辑”。研究主要回答了三个关键问题：AI是否存在内在的情绪机制？这些机制如何运作？能否实现精准控制？

据作者介绍，这是该领域的首篇系统性研究。

Chenxi Wang指出，两篇论文都聚焦于LLM自身如何“生成”情感，而非如何“识别”或“感知”文本中的情感。但Anthropic最初引用的几篇“先前工作”，研究的恰恰是后者——即情绪感知任务。这正是她决定联系对方澄清的关键原因。

她很快与论文的通讯作者Jack Lindsey取得了联系。Jack起初认为，Chenxi团队的核心发现与他们博客中列举的几篇已有研究存在重叠。但经过Chenxi Wang逐一比对并阐明“情绪生成”与“情绪感知”在AI研究中的本质区别后，Jack认可了这一观点。

作者Chenxi Wang回复Anthropic的邮件

目前，Anthropic已经更新了博客，补上了这项引用。

首篇系统性AI情绪回路研究详解

那么，这篇被“追认”的华人团队研究，具体做出了哪些贡献？简而言之，它系统性地解答了三个核心问题，并成功构建出LLM内部的“情绪回路”，实现了比传统提示词工程或向量操控更为精准的情绪控制。

研究以LLaMA-3.2-3B-Instruct为主要实验模型，并在Qwen2.5-7B-Instruct上进行了跨模型验证，确保了结论的普适性。

第一个问题：大模型是否存在独立于具体语境的、稳定的情绪机制？

研究者构建了一个名为SEV的受控数据集，覆盖工作、学习等8个日常场景。关键技巧在于，每个场景只描述客观事实，严格禁止使用任何情绪词汇（如“开心”、“难过”），以确保观测到的情绪差异纯粹源于事件本身的语义，而非文本暗示。

接着，他们引导AI表达六种基本情绪，并从模型网络的各层中，提取出了与具体语境无关、只对应特定情绪的“情绪方向向量”。结果发现，从网络浅层开始，不同情绪的信号就开始分离，形成清晰的“情绪分组”。例如，愤怒和厌恶的向量位置相近，悲伤和恐惧也挨在一起——这与人类对情绪的直觉认知高度一致。这些分组在深层网络中保持稳定。

这证实了第一个问题的答案：是的，模型内部编码了稳定且独立于语义的情绪表示。

第二个问题：这些情绪机制以什么形式存在？

答案是：高度集中且由少数核心组件主导。研究发现，每层网络中只有极少数的神经元（MLP层）和注意力头（Attn层）在主导情绪表达。两个关键实验证明了这一点：

1. 消融实验：关掉这些核心的神经元或注意力头，AI的情绪表达能力会急剧下降。更有趣的是，往往只需要关闭2-4个神经元或1-2个注意力头，效果就大打折扣。

2. 增强实验：只激活这些核心组件，即使不给AI任何表达情绪的提示，它也能自发产生对应情绪。而激活随机组件则完全无效。

第三个问题：能否利用这些机制实现通用、精准的情绪控制？

答案依然是肯定的，而且效果远超现有方法。研究者进一步发现，情绪信息会在网络层间传播，并在深层趋于稳定。他们将各层中识别出的核心情绪组件，按其影响力整合起来，形成了一条跨层的、连贯的“情绪回路”。

直接调节这条回路来引导AI生成指定情绪，在测试集上的整体情绪表达准确率达到了惊人的99.65%，大幅超越了传统的“提示词引导”和“向量操控”方法。尤其是之前最难精准控制的“惊讶”情绪，实现了100%的准确表达。

此外，在Qwen2.5-7B上的重复实验也带来了有趣发现：由于安全对齐机制，直接操控很难让Qwen表达负面情绪，但通过这套“情绪回路”方法依然可以有效引导。两个模型都表现出“少数核心组件主导情绪”的特点，说明这套机制很可能是LLM的通用规律，而非某个模型的特性。

硕士生与行业巨头的学术对话

这篇论文的第一作者Chenxi Wang，是MBZUAI（穆罕默德·本·扎耶德人工智能学院）的NLP硕士研究生，本科毕业于西安交通大学计算机科学专业。

她的研究方向聚焦于人本人工智能和AI可解释性，已有数篇一作/共同一作论文被EMNLP、ACL、NeurIPS、COLING等顶级会议接收。目前她正在Qwen的后训练团队实习。

这次事件最终得到了一个积极的结局：Anthropic道歉并补引了工作；而Chenxi Wang也大方肯定了对方研究的独立价值。她特别提到，Anthropic在研究情绪表征的功能作用方面——比如对模型偏好、对齐相关行为的影响、在真实交互中的激活情况，以及后训练阶段的演变——做出了她们工作未曾涉及的重要探索。

她也指出，通讯作者Jack Lindsey在整个交流过程中始终保持着尊重的态度，并真诚地参与到技术讨论中。

对这两篇论文细节感兴趣的朋友，可以进一步阅读原文。

论文链接：
[1] 华人团队论文：https://arxiv.org/abs/2510.11328
[2] Anthropic论文：https://transformer-circuits.pub/2026/emotions/index.html#toc-18

来源：https://www.163.com/dy/article/KPU6SIRP0511DSSR.html

向量论文实验回路

延伸阅读

补充最近整理过的热点入口。