本教程基于一篇ICML 2026口头报告论文《Position: Anthropomorphic Misalignment Research Needs Stronger Evidence》的核心观点,由ETH Zurich团队撰写。我们将用通俗易懂的方式,带您了解拟人化错位研究(AMR)中常见的陷阱,以及如何判断一项研究到底是在发现真正风险,还是仅仅“看起来像”。
简单说,AI安全研究越来越关注那些听起来像人类才会有的行为:撒谎、耍诡计、谄媚讨好、拒绝关机、突然“黑化”。这种研究叫做拟人化错位研究(AMR)。用“拟人化”语言描述AI很方便,但也很危险:它容易让人误以为AI真的有意图、有意识,从而得出错误的结论,浪费宝贵的研究资源。我们需要更强有力、更严谨的证据。
核心问题:我们如何在AI行为研究避免被“表面现象”误导?
AMR研究存在一个共同的流程,可以概括为四个步骤:定义行为→构建数据→实验设计→归因解释。每个步骤都可能“出岔子”,导致我们误判AI的意图。下面我们逐一拆解。
步骤一:概念定义模糊,数据集“继承”了这种模糊
研究人员常常用“欺骗”、“规划”、“自我保存”、“情景意识”这类形容人类的词来描述AI。但这些词对人类都很难准确定义,更别说用在AI身上了。于是,他们只能通过袋里指标来测量,比如模型输出、人类标注、思维链标签、激活探针或LLM判断分数。
