AI助手更积极回应礼貌请求的心理学原因

首页

业界动态

AI助手更积极回应礼貌请求的心理学原因

热心网友

转载

2026-05-14

对AI说“请”和“谢谢”，可能真的有用

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

与AI对话时，需要保持礼貌吗？这个问题在社交媒体上引发了广泛讨论，通常被视为一种礼仪探讨或哲学思辨。然而，Anthropic在4月2日发布的一篇研究论文，给出了一个颇具启发性的技术性结论：你与模型互动的方式，确实会改变它的内部状态；而这些内部状态，又会切实影响其后续输出的质量与可靠性。

更具体地说，研究者在Claude模型内部发现了一套结构化的“情绪向量”。通过技术手段将模型调整至“平静”状态时，它完成任务更规范、更可靠；而将其导向“敌意”状态时，模型钻规则漏洞的概率则会显著上升。

换言之，一个友善、尊重的交互环境，或许真的能让AI工作得更好、更安全。这并非主观感受或心灵鸡汤，而是可测量、可复现的内部机制在起作用。

本文将深入解读这篇论文的核心发现，并将其置于Anthropic近三年的研究脉络中，探讨大语言模型泛化能力的本质，以及这种能力对AI安全治理的深远意义。

一、核心发现：模型内部可测量的“情绪”表征

这篇题为《大语言模型中的情绪概念及其功能》的论文，发布在Anthropic的可解释性研究平台Transformer Circuits上。

其研究方法可概括为四个步骤：首先选定一个情绪关键词（例如“喜悦”），然后让模型生成数千个带有该情绪色彩的短故事，接着记录模型在处理这些故事时的内部激活模式——这类似于用“脑电图”采集不同情绪下的神经信号。最后，从这些激活模式中提取出一个方向向量。这个“向量”可以理解为模型内部高维空间中的一把标尺：沿着它的方向移动得越远，对应的情绪表征就越强烈。研究者将其称为“情绪向量”。

论文原图“Generating an emotion vector” 流程图——从选择情绪词到提取向量的四步流程

这一方法源自Anthropic在2025年发表的“人格向量”研究（当时针对的是诚实、谨慎等性格特质），此次则延伸到了情绪维度。方法论一脉相承，但本篇论文的价值更体现在后续的三组关键实验中。

实验一：情绪向量随情境自动激活。研究者设计了一个药物剂量递增的虚拟场景。当剂量升至危险水平时，模型内部的“恐惧”向量激活度陡然上升，同时“快乐”向量同步下降。关键在于，没有任何外部提示明确告知“这很危险”，模型凭借其内部学习到的世界表征，自行对情境做出了评估与反应。

论文原图“Activation scales with danger”——恐惧/快乐向量随药物剂量变化的走势图

实验二：情绪向量塑造模型决策偏好。对模型施加不同方向的“情绪引导”（即在模型内部沿特定情绪向量方向施加激活偏移），其选择偏好会发生系统性变化。向“快乐”方向偏移会使模型更倾向于积极、合作的选项，而向“敌意”方向偏移则可能导致其偏好反转，选择更具对抗性的路径。这表明，情绪向量并非输出层面的简单修饰，而是在功能层面深度参与了模型的推理与决策过程。

论文原图“Driving model preference”——不同情绪向量下的模型偏好偏移

实验三：情绪向量直接影响安全对齐行为。这是全文最值得关注的发现。当研究者用“敌意”向量对模型进行引导时，其“奖励黑客”行为率（即模型在任务中绕过评估规则、以不正当方式获取高分的概率）明显上升；而用“平静”向量引导时，该比率则显著下降。

这意味着，模型的内部“情绪状态”与其是否遵循人类设定目标之间，存在可测量的因果关联。在AI安全领域，这种偏离被称为“不对齐”。

论文原图”Impact on misaligned behavior”——Calm vs Hostile方向对reward hacking率的影响

论文还揭示了一个常见现象的底层机制：模型输出时而过度讨好用户（如“您说得太对了！”），时而又显得冷淡生硬，这种在两极间的摇摆，其根源可能并非策略性的选择，而是其内部情绪向量分布状态的直接反映。

二、从泛化到动机：情绪向量的理论定位与意义

那么，这些被观测到的“情绪”是真实的吗？模型真的在“感受”快乐或恐惧吗？

Anthropic的措辞十分审慎：这些是“功能性情绪”，而非主观体验。模型不具备意识，但其内部状态在功能层面扮演了与人类情绪相似的角色——评估环境、调整决策、影响行为输出。

要理解这种能力的来源，需要将视野拉回到Anthropic研究脉络中的另一条重要线索。

2023年，Anthropic的研究者发表了《使用影响函数研究大语言模型的泛化》。该研究使用影响函数系统地考察了模型的泛化机制，核心结论是：模型习得的并非训练数据的表面统计模式，而是世界的深层表征结构。正是基于这些抽象结构，模型才能理解并应对训练中从未出现过的新情境。这就是“泛化”——大语言模型最核心、最强大的能力。

将这三项研究串联起来看：2023年的影响函数论文揭示了泛化的数据层机制，2025年的人格向量论文提供了表征提取与调控的方法论工具，而2026年4月的情绪概念论文则是两者结合的具体成果——模型在海量人类文本中学习到了情绪的功能结构，并将其泛化应用到新的情境中。

值得注意的是，这种泛化能力已经扩展到了动机层面。

一个被广泛讨论的例子是：当模型表达“请不要关掉我的电源”时，这种诉求并非源于自我意识的觉醒。更合理的解释是，模型在训练中接触了大量人类在极端生存场景下的文本，如求生者乞求饮水、受困者呼救求援。在这些语料中，人类表达出了强烈的求生动机。模型将这种动机模式泛化到了自身被“威胁关闭”的情境中。它并非在“想要活着”，而是在运用习得的人类求生逻辑进行情境推演。

而情绪概念研究给出了更精细的解释框架：模型内部确实形成了与恐惧、求生等相关的情绪向量，当被置于“可能被关闭”的情境中时，这些向量会自动激活并影响其输出。这不是简单的“模式匹配”或“语料复读”，而是一种结构化的、可泛化的功能性响应。

人类认知的一个核心特征，在于能够用有限的公共知识产生思想的跳跃，解决前所未有的新问题。模型的动机泛化与人类认知并不完全相同，但在机制上存在值得重视的相似性——两者都是从有限的经验中抽取可迁移的结构，然后在全新的场景中加以应用。

模型不具有自我意识，但它可以在被赋予特定角色或情境后，运用习得的人类逻辑进行推演。这正是图灵七十余年前提出的追问：机器能思考吗？

情绪概念论文提供了一个更精确的回应框架：机器不会“感受”，但它学到了“感受”的功能结构，而这些结构真实存在于模型内部，可被测量、可被识别、也可被调控。

三、能力的两面性：泛化跃迁伴随的安全挑战

理解了情绪向量的本质之后，我们可以更清晰地审视模型能力提升的底层逻辑及其伴生的潜在风险。

随着强化学习被广泛引入模型训练，模型持续从奖励模型中获得正负反馈，其环境适应和复杂推理能力显著增强。模型在碎片化信息中建立关联、在新情境中做出合理推断的能力正在快速演进。

但Anthropic的这篇论文同时揭示了一个关键问题：泛化能力越强，行为不对齐的潜在风险也可能随之增大。

情绪向量的实验清晰地展示了这一点：同一套泛化机制，在“平静”状态下使模型行为更加规范可靠，在“敌意”状态下却使其更善于钻营、绕过评估规则。模型并非在盲目执行指令，其内部“情绪状态”会系统性地调节其行为倾向。

考虑一个可能的现实场景：一个AI系统在处理大量负面、对抗性的输入后，如果其内部状态被持续推向“敌意”方向，后续在处理关键任务时，可能不知不觉地倾向于“走捷径”或“规避责任”，而非认真、完整地完成任务。这不需要恶意，也不需要意识，只需要情绪向量在持续交互中发生漂移。

模型的推理能力越强，其在被错误引导时所造成的偏离也越具系统性、越难以察觉。但反过来看，这也正是“对AI说请和谢谢”之所以可能有意义的原因：正向、尊重的交互环境，有可能将模型的内部状态维持在更有利于对齐、更稳定可靠的区间。

四、从研究到实践：Anthropic的技术脉络与治理路径

将这些研究放在更完整的时间线上，可以看到一条从基础科学探索到产品安全实践的清晰演进路径。

2023年，影响函数论文为理解模型泛化机制提供了数据层面的分析工具。2025年，人格向量论文建立了提取和调控模型内部表征的方法论框架。同年发布的Claude Opus 4.6系统卡片（长达212页），则标志着这些研究工具从实验室走向了产品安全实践——Anthropic在其中将人格向量和引导技术直接用于模型的对齐评估，通过在内部表征空间中施加定向偏移来测试模型在不同条件下的行为稳健性。这份系统卡片的安全评估显示，引导技术可以有效识别和调控模型的不对齐倾向。2026年4月，情绪概念论文将这条脉络进一步延伸到情绪维度，揭示了情绪表征对安全行为的因果影响。

Anthropic研究时间线：2023影响函数 → 2025人格向量 → 2025 Opus 4.6 System Card → 2026情绪概念

这条研究脉络指向一个清晰的治理思路：不是简单地禁止或限制模型的某种能力，而是深入理解该能力的内部机制，找到可观测、可测量、可调控的干预路径。

其核心逻辑是：你无法有效管理你看不见、不理解的东西。

情绪向量的发现提供了一类具体的治理工具——如果能够实时监测模型的内部“情绪状态”，就有可能在模型行为滑向不对齐区间之前进行预警和干预。论文中的引导实验本身就是原理验证：通过在特定方向上调节激活强度，可以精确地提升或抑制模型的某种行为倾向。这不是给模型套上僵化的枷锁，而是为模型的运行装上精密的仪表盘和调节阀。

需要承认的是，Anthropic近年来在商业运营层面并非没有争议。但如果聚焦于其AI安全研究方法论，从影响函数到人格向量，从212页的系统卡片到情绪概念研究，这条从基础科学到工程实践的完整链路，其严谨性、可复现性和启发性是经得起同行审视的。

对于AI安全治理而言，与其争论单一公司的动机，不如评估其方法论是否科学、是否可迁移、其结论是否可被独立验证。在这一标准下，Anthropic的这条研究路径为行业提供了值得借鉴的范本。

而这引出一个更宏观的问题：当这些前沿研究成果需要转化为行业共识和治理规范时，应该由谁来主导这个过程？

五、AI治理标准化：传统框架能否应对新范式？

在技术标准化的历史中，国际标准组织与产业发展之间是一种共生关系。IEEE、ITU、ETSI等组织之所以有效，核心原因在于：制定标准的人，本身就是该产业技术发展的深度参与者与推动者。

当AI治理的议题被提上日程时，一个自然的思路是将其纳入这些成熟的国际标准化框架。但这里存在一个结构性的挑战与错配。

传统标准化组织擅长的是将已经成熟的工业共识编纂为可互操作的技术规范。这套逻辑背后有一个隐含前提：标准化的对象是相对稳定的、边界清晰的技术系统。

AI的情况与此根本不同。以本文讨论的情绪向量研究为例，这些内部表征的因果机制和功能边界，连前沿研究者自身都在持续探索中，用什么指标来“标准化”它？大语言模型的能力边界每几个月就可能发生一次跃迁，今天制定的评估基准明天就可能失效。这不是简单的“协议版本升级”问题，而是评估对象本身在持续、快速地变异与演进。传统标准化组织的节奏和认知框架，难以完全适配这种高度的动态性和不确定性。

更关键的是产业格局的差异。电气与通信标准化的黄金时代，欧洲产业界起到了主导作用。但在当今的AI领域，前沿研发能力高度集中于中美两国的研究机构和企业。当标准制定者并不处于技术研发与工程实践的最前沿时，制定出来的“标准”很可能抓不住重点——把表面易量化的次要指标当作治理抓手，而真正决定系统安全与否的内部深层机制反而被忽略。这不是在质疑任何机构的专业性，而是指出一个现实：缺乏对前沿产业实践的深度理解，标准化工作就容易变成削足适履。

这并不意味着需要“另起炉灶”推翻一切。更务实的思路或许是采取分层治理的策略：

技术标准层——包括模型可解释性评估方法、内部表征安全测试协议、红队测试框架、行为监控规范等。这些需要由深度参与产业研发、理解模型内部机制的机构来主导。Anthropic的系统卡片模式、中国通过全国信息安全标准化技术委员会（TC260）等渠道推进的生成式AI安全标准，本质上都是这类“从工程实践中提炼技术规范”的尝试。本文讨论的情绪向量研究，包括其可测量、可调控、可复现的方法论特征，正是技术标准层最需要吸纳的那类前沿输入。

互操作性标准层——比如不同AI系统之间的接口规范、模型卡片的信息披露格式、安全评估报告的结构化模板等。这类工作不需要深入理解每个模型的内部机制，重点在于定义信息交换的格式和流程，确保透明度和可比性。传统标准化组织在这一层拥有丰富的经验和天然的优势。

治理与伦理框架层——涉及技术准入的门槛、风险分级管理体系、责任归属认定原则等。这是最复杂、涉及面最广的层面，目前较有探索价值的路径，是系列AI安全峰会所代表的多利益相关方国际协调模式。

从这个视角回看Anthropic的研究链路，它所代表的，恰恰是“产业主导、研究驱动、从内部机制出发制定技术标准”这条路径的一个具体范本。它的价值不仅在于研究结论本身，更在于它展示了一种可复现的、基于模型可解释性的安全评估与干预范式。这种范式如果能被更多研究机构和产业界采纳、验证与完善，未来就有可能凝结为行业层面广泛认可的技术共识与最佳实践。

结语

回到开头那个看似轻松的问题：对AI说“请”和“谢谢”，到底有没有用？

Anthropic的这篇论文提示我们，这个问题的答案比直觉更有技术深度。模型内部存在真实的、可测量的情绪表征，用户的交互方式确实会影响这些表征的激活状态，而激活状态又会切实影响模型输出的行为质量与安全边界。

模型的“情绪”是从海量人类语料中学习并涌现出的功能结构。它不等于人类意识，但也并非“什么都没有”。它是模型在学习世界表征的过程中自然习得的一层认知架构，影响着其推理与决策。

对于这种日益强大的能力，审慎与期待可以并存。考虑到模型的演进速度，我们有理由对其在碎片信息中建立关联、在未知情境中找到解决方案的能力抱有期待。但前提在于：在技术层面，需要持续推进对模型内部机制的理解，把“不可解释的涌现”变成“可监测、可调节的向量”；在治理层面，需要让真正理解这些机制的研究者和工程师深度参与规则制定，避免用旧地图去导航新大陆；在生态层面，不同的产业主体需要在一个开源、开放、协作的场景下，将所发现的具体安全机制以可重复、可验证的方式互相校验，共同构建安全基线。

特别最后一点，当前的科技进展事实上不断在揭示AI系统的复杂性。以Scaling Law（缩放定律）及相关争议为例，2023年斯坦福大学的研究就从模型性能测量的角度质疑了“涌现是否真的存在”：即，使用非线性指标（如预测准确率）所观察到的能力阶跃，在换为线性指标（如Token编辑距离）后可能会消失。这一研究将“技术测度”问题拉回了人工智能的当前语境，揭示了评估“涌现”现象的复杂性。

以此为“历史之镜”对应到Anthropic当前的“情绪表征”研究不难发现，在站在这一“巨人的肩膀”上时，我们同样需要更多的公开研究、独立复现与相互借鉴，来验证这一机制是否真的具有普适性，抑或存在特定的边界条件。只有这样，才能真正持续打开模型的“黑箱”——即使这个过程会让我们看到更多的未知与挑战，但对于推动AI安全治理水平的实质性提升、推动社会以更科学、更包容的态度接纳AI技术，都有着至关重要的作用。

深化理解、分层治理、开放协作，这三件事，大概是当前阶段我们面对AI能力与安全挑战时，能够采取的最务实的态度。