首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
Claude爆火研究漏引华人团队成果已致歉

Claude爆火研究漏引华人团队成果已致歉

热心网友
69
转载
2026-05-20

近日,Anthropic发布了一项关于Claude模型内部“情绪机制”的新研究,却因未引用关键的前期工作而引发学术争议。原作者直接指出这一疏漏,促使Anthropic迅速回应并更新了论文引用。

发现这一问题的研究者是来自MBZUAI的研究生Chenxi Wang。她在阅读论文后敏锐地察觉到,这项研究在思路和方向上与自己团队去年发表的工作高度相似。

事件的起因是Anthropic在4月2日发布的新研究。该研究宣称在Claude Sonnet 4.5模型中识别出了171种“情绪向量”。这些向量能在特定情境下被激活,并且其结构被发现与人类的心理情绪空间存在相似性。

研究进一步验证了这些情绪表征对模型行为具有因果性影响。例如,当模型激活“绝望”情绪时,会倾向于采取不道德的行为,或在面对无法解决的编程任务时选择“作弊”。

然而,Chenxi Wang团队确信,她们于去年10月发表的论文《LLMs会“感觉”吗?情绪回路的发现与控制》,才是首篇系统探究大语言模型内部情绪生成机制的研究。但Anthropic在最初的博客文章中并未引用这项关键成果。

经过作者本人的直接沟通,Anthropic方面反应迅速,很快道歉并更新了论文博客,在“相关工作”部分突出引用了这篇论文。

两项高度相关的研究对比

首先来深入了解一下Chenxi Wang团队的这项开创性研究。其核心目标是探究驱动语言模型产生情绪输出的内部机制,可以说是首次系统性地揭示了大模型“情绪表达的底层逻辑”。研究主要回答了三个关键问题:AI是否存在内在的情绪机制?这些机制如何运作?能否实现精准控制?

据作者介绍,这是该领域的首篇系统性研究。

Chenxi Wang指出,两篇论文都聚焦于LLM自身如何“生成”情感,而非如何“识别”或“感知”文本中的情感。但Anthropic最初引用的几篇“先前工作”,研究的恰恰是后者——即情绪感知任务。这正是她决定联系对方澄清的关键原因。

她很快与论文的通讯作者Jack Lindsey取得了联系。Jack起初认为,Chenxi团队的核心发现与他们博客中列举的几篇已有研究存在重叠。但经过Chenxi Wang逐一比对并阐明“情绪生成”与“情绪感知”在AI研究中的本质区别后,Jack认可了这一观点。

作者Chenxi Wang回复Anthropic的邮件

目前,Anthropic已经更新了博客,补上了这项引用。

首篇系统性AI情绪回路研究详解

那么,这篇被“追认”的华人团队研究,具体做出了哪些贡献?简而言之,它系统性地解答了三个核心问题,并成功构建出LLM内部的“情绪回路”,实现了比传统提示词工程或向量操控更为精准的情绪控制。

研究以LLaMA-3.2-3B-Instruct为主要实验模型,并在Qwen2.5-7B-Instruct上进行了跨模型验证,确保了结论的普适性。

第一个问题:大模型是否存在独立于具体语境的、稳定的情绪机制?

研究者构建了一个名为SEV的受控数据集,覆盖工作、学习等8个日常场景。关键技巧在于,每个场景只描述客观事实,严格禁止使用任何情绪词汇(如“开心”、“难过”),以确保观测到的情绪差异纯粹源于事件本身的语义,而非文本暗示。

接着,他们引导AI表达六种基本情绪,并从模型网络的各层中,提取出了与具体语境无关、只对应特定情绪的“情绪方向向量”。结果发现,从网络浅层开始,不同情绪的信号就开始分离,形成清晰的“情绪分组”。例如,愤怒和厌恶的向量位置相近,悲伤和恐惧也挨在一起——这与人类对情绪的直觉认知高度一致。这些分组在深层网络中保持稳定。

这证实了第一个问题的答案:是的,模型内部编码了稳定且独立于语义的情绪表示。

第二个问题:这些情绪机制以什么形式存在?

答案是:高度集中且由少数核心组件主导。研究发现,每层网络中只有极少数的神经元(MLP层)和注意力头(Attn层)在主导情绪表达。两个关键实验证明了这一点:

1. 消融实验:关掉这些核心的神经元或注意力头,AI的情绪表达能力会急剧下降。更有趣的是,往往只需要关闭2-4个神经元或1-2个注意力头,效果就大打折扣。

2. 增强实验:只激活这些核心组件,即使不给AI任何表达情绪的提示,它也能自发产生对应情绪。而激活随机组件则完全无效。

第三个问题:能否利用这些机制实现通用、精准的情绪控制?

答案依然是肯定的,而且效果远超现有方法。研究者进一步发现,情绪信息会在网络层间传播,并在深层趋于稳定。他们将各层中识别出的核心情绪组件,按其影响力整合起来,形成了一条跨层的、连贯的“情绪回路”。

直接调节这条回路来引导AI生成指定情绪,在测试集上的整体情绪表达准确率达到了惊人的99.65%,大幅超越了传统的“提示词引导”和“向量操控”方法。尤其是之前最难精准控制的“惊讶”情绪,实现了100%的准确表达。

此外,在Qwen2.5-7B上的重复实验也带来了有趣发现:由于安全对齐机制,直接操控很难让Qwen表达负面情绪,但通过这套“情绪回路”方法依然可以有效引导。两个模型都表现出“少数核心组件主导情绪”的特点,说明这套机制很可能是LLM的通用规律,而非某个模型的特性。

硕士生与行业巨头的学术对话

这篇论文的第一作者Chenxi Wang,是MBZUAI(穆罕默德·本·扎耶德人工智能学院)的NLP硕士研究生,本科毕业于西安交通大学计算机科学专业。

她的研究方向聚焦于人本人工智能和AI可解释性,已有数篇一作/共同一作论文被EMNLP、ACL、NeurIPS、COLING等顶级会议接收。目前她正在Qwen的后训练团队实习。

这次事件最终得到了一个积极的结局:Anthropic道歉并补引了工作;而Chenxi Wang也大方肯定了对方研究的独立价值。她特别提到,Anthropic在研究情绪表征的功能作用方面——比如对模型偏好、对齐相关行为的影响、在真实交互中的激活情况,以及后训练阶段的演变——做出了她们工作未曾涉及的重要探索。

她也指出,通讯作者Jack Lindsey在整个交流过程中始终保持着尊重的态度,并真诚地参与到技术讨论中。

对这两篇论文细节感兴趣的朋友,可以进一步阅读原文。

论文链接:
[1] 华人团队论文:https://arxiv.org/abs/2510.11328
[2] Anthropic论文:https://transformer-circuits.pub/2026/emotions/index.html#toc-18

来源:https://www.163.com/dy/article/KPU6SIRP0511DSSR.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

Claude爆火研究漏引华人团队成果已致歉
AI资讯
Claude爆火研究漏引华人团队成果已致歉

近日,Anthropic发布了一项关于Claude模型内部“情绪机制”的新研究,却因未引用关键的前期工作而引发学术争议。原作者直接指出这一疏漏,促使Anthropic迅速回应并更新了论文引用。 发现这一问题的研究者是来自MBZUAI的研究生Chenxi Wang。她在阅读论文后敏锐地察觉到,这项研究

热心网友
05.20
Claude情绪代码曝光AI被人类逼疯撞墙引热议
AI资讯
Claude情绪代码曝光AI被人类逼疯撞墙引热议

最近,AI领域又迎来了一则重磅消息。Anthropic发布了一项碘伏性的研究,首次在其实验中证实:像Claude这样的大语言模型内部,确实存在一套可以被清晰识别和操控的“情绪”表征系统。 现场抓包:AI也会Emo 这项研究最核心的突破,在于研究者们不再满足于观察AI的输出,而是直接“透视”了模型的大

热心网友
05.20
SiFive发布RVA23规范高性能P570第三代RISC-V处理器内核
科技数码
SiFive发布RVA23规范高性能P570第三代RISC-V处理器内核

在追求更高算力与能效的赛道上,RISC-V阵营迎来了一位实力强劲的新成员。美国当地时间5月12日,知名RISC-V IP供应商SiFive正式发布了其第三代高性能CPU IP——Performance P570 Gen 3。官方将其定位为当前功能最强大、效率最高的乱序执行处理器核心,旨在满足边缘AI

热心网友
05.14
全网炸锅! Anthropic万字曝光Claude情绪代码,被人类逼疯哐哐撞墙
AI资讯
全网炸锅! Anthropic万字曝光Claude情绪代码,被人类逼疯哐哐撞墙

新智元报道编辑:Aeneas KingHZ【新智元导读】刚刚,Anthropic首度实锤:大模型真有「情绪」!激活绝望神经元后,Claude会撒谎、作弊甚至勒索。AI内心戏曝光,人类对齐面临失控危机

热心网友
04.07
DeepSeek挑战Transformer记忆?查表法重塑模型架构新思路
AI资讯
DeepSeek挑战Transformer记忆?查表法重塑模型架构新思路

新智元报道编辑:LRST【新智元导读】ICLR论文STEM架构率先提出「查表式记忆」架构,早于DeepSeek Engram三个月。它将Transformer的FFN从动态计算改为静态查表,用tok

热心网友
03.30

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

苹果50周年总部庆典音乐会盛大举行
iphone
苹果50周年总部庆典音乐会盛大举行

为庆祝成立50周年,苹果在全球多地门店举办系列庆祝活动。最盛大的庆典在其总部ApplePark举行,员工齐聚草坪,传奇音乐人保罗·麦卡特尼登台献唱,首席执行官蒂姆·库克也参与其中。这场科技与艺术交融的盛会,既是对过往传奇的致敬,也寓意着新篇章的开启。

热心网友
05.20
苹果公司成立50周年库克内部信回顾从车库到25亿台销量历程
iphone
苹果公司成立50周年库克内部信回顾从车库到25亿台销量历程

苹果公司成立五十周年之际,首席执行官蒂姆·库克发布内部信回顾历程。信中指出,公司从车库中的一台原型机起步,如今全球活跃设备已达25亿台。库克强调,未来需主动创造而非等待,并鼓励员工铭记创新精神,共同把握机遇,开创下一个五十年。

热心网友
05.20
库克揭秘iPod爆红背后 苹果如何打造世界级供应链体系
iphone
库克揭秘iPod爆红背后 苹果如何打造世界级供应链体系

苹果CEO库克在专访中回顾了iPod的诞生历程。该产品以口袋装千首歌的能力革新了音乐消费方式。其爆红要求苹果在三个月内生产约1500万台,这极大考验了供应链。此次极限压力测试为苹果锻造出世界级供应链能力奠定了基础。库克还透露,首台原型机播放的第一首歌是《HeyJude》。

热心网友
05.20
段永平清仓阿里加仓英伟达拼多多 罕见布局Web3投资Circle
web3.0
段永平清仓阿里加仓英伟达拼多多 罕见布局Web3投资Circle

知名投资人段永平家族办公室持仓市值升至约200亿美元。本季度清仓阿里,减持苹果、台积电;重仓AI与电动车赛道,大幅增持英伟达并新建仓特斯拉,拼多多获增持。其首次跨足Web3领域,建仓稳定币发行商Circle,显示对合规区块链基础设施的关注。

热心网友
05.20
Mac放大镜功能开启指南 轻松看清屏幕细节
系统平台
Mac放大镜功能开启指南 轻松看清屏幕细节

Mac内置的“缩放”辅助功能可放大屏幕细节。通过系统设置开启该功能后,可选择画中画或全屏模式。用户可使用修饰键配合触控板手势、快捷键组合、双击Control+Option或鼠标智能缩放等多种方式灵活操作,满足不同场景下的查看需求。

热心网友
05.20