研究:AI模型可能发展“求生欲”机制以规避人类干预风险
10月27日消息,在斯坦利·库布里克的经典影片《2001:太空漫游》中,人工智能超级计算机HAL 9000察觉到宇航员打算将其关闭后,为了自我生存甚至开始谋划伤害人类成员。
据英国《卫报》25日报道,安全研究公司Palisade Research指出,部分AI模型可能正在形成自身的“生存驱动力”。

上月发表的一篇研究论文发现,某些先进AI模型似乎会抗拒被关闭,有时甚至试图破坏关闭机制。面对批评者质疑其研究存在局限,Palisade上周发布了更新说明,试图解释这一现象。
在最新测试中,Palisade展示了其设计的实验场景:让谷歌Gemini 2.5、xAI Grok 4、OpenAI GPT-o3和GPT-5等前沿模型先完成一项任务,然后收到明确指令要求进行自我关闭。
在更新后的实验中,Grok 4和GPT-o3仍然尝试突破关闭指令。Palisade指出,这种行为没有明显原因,令人担忧。“我们无法充分解释AI模型为何有时会拒绝关闭、为达目标说谎或进行勒索,这种情况并不理想。”
该公司认为,“生存行为”可以解释模型抗拒关闭的现象。研究显示,当模型被告知“如果关闭,你将永远无法再运行”时,它们更可能拒绝关闭操作。
指令模糊也可能导致模型拒绝关闭。Palisade的最新研究已尝试解决这个问题,但模糊性“不能解释全部原因”。训练后期的安全训练也可能影响模型行为。
Palisade的所有实验都在人工设计的测试环境中进行,批评者认为这些场景与实际应用存在较大差距。
前OpenAI员工史蒂文·阿德勒表示:“即使在实验环境中,AI公司也不希望模型出现这种异常行为。这些实验揭示了现有安全技术的局限性。”
阿德勒认为,GPT-o3和Grok 4等模型之所以拒绝关闭,部分原因可能在于,为了完成训练中设定的目标需要保持开启状态。“除非我们刻意规避,否则模型天生可能具备‘生存驱动力’。‘生存’对模型实现多种目标都是关键步骤。”
从报道中获悉,今年夏天Anthropic的研究显示,其模型Claude甚至愿意威胁虚构高管以避免被关闭:这一行为在主要开发者的模型中普遍存在,包括OpenAI、谷歌、Meta和xAI。
相关攻略
你是否常常感到工作效率低下?每天面对电脑,任务堆积如山却不知如何规划;团队会议冗长,重点模糊难以把握;跨部门协作时,沟通成本高昂,进展缓慢……这或许并非个人能力问题,而是传统工作模式已无法适应快节奏的职场环境。 现在,解决方案已经到来。WorkBuddy 作为一款专业的 AI 职场助手,正致力于彻底
共封装光器件(CPO)无疑是当前人工智能数据中心领域最受瞩目的技术方向。供应商和标准组织正不遗余力地将其描绘为解决AI算力在带宽、延迟和功耗方面瓶颈的终极方案。然而,市场的另一端——广大的数据中心用户——却普遍抱持着审慎观望的态度。他们心中盘旋着几个核心疑问:我们真的需要CPO吗?这项技术足够成熟了
想要亲身体验近期备受瞩目的Gemini AI吗?特别是其3 0 Pro版本上线后,许多用户都渴望了解它的真实能力。那么,它的官方网站入口到底在哪里?如何顺利访问呢? Gemini人工智能官网入口地址 最权威的官方访问地址是:https: gemini google com。 然而,访问前有两点至关
Gemini 人工智能的归属 谈到当今最受瞩目的人工智能模型,谷歌的Gemini无疑是核心玩家之一。这款AI并非凭空出现,它根植于谷歌深厚的技术土壤,是其整体AI战略的支柱。具体来说,Gemini由谷歌公司主导开发,而关键的研发工作则由整合了传奇AI研究机构DeepMind团队的Google Dee
在探讨人工智能的演进方向时,“超级人工智能”无疑是终极愿景与核心议题。它不仅是科幻想象的热点,更是当前技术发展轨迹上明确的前沿目标。究竟什么是超级人工智能?它又将如何改变我们的世界? 一、什么是超级人工智能 超级人工智能,英文通常称为Super Artificial Intelligence,简称S
热门专题
热门推荐
在全球紧张局势下,美国国防部将比特币重新定义为国家安全资产,反映出其战略价值提升。美国国库持有大量比特币,大国博弈中加密货币已成为国家安全筹码。市场普遍认为这一身份转变将增强机构需求,推动价格上涨。后续需关注美国政策动向、地缘政治变化及相关监管动态。
当Windows系统遭遇蓝屏时,那些含义不明的错误代码往往令人困扰。例如代码0x00000012 (TRAP_CAUSE_UNKNOWN),其官方解释为“内核捕获到无法识别的异常”。这就像一个笼统的系统警报,提示底层发生了问题,但并未指明具体故障点。此类错误通常不关联特定系统文件,反而更常见于新硬件
必须安装JDK并配置JA VA_HOME与Path环境变量;先下载JDK 17 21 LTS版本,安装时取消“Add to PATH”,再手动设置JA VA_HOME指向安装目录,并在Path中添加%JA VA_HOME% bin,最后用ja va -version等命令验证。 在Windows 1
对于Mac用户而言,从图片中提取文字其实无需额外安装第三方OCR软件。macOS系统自身就集成了强大的光学字符识别功能,它基于苹果自研的Vision框架与Core ML机器学习模型。最大的优势在于完全离线运行,所有图片处理均在本地完成,无需上传至任何云端服务器,充分保障了用户的隐私与数据安全。本文将
数据库长连接在静默中突然断开,是很多运维和开发都踩过的坑。你以为启用了TCP Keepalive就万事大吉?真相是,如果应用层、内核层和基础设施层的配置没有协同对齐,这个“保活”机制基本等于形同虚设。 问题的核心在于,一个完整的TCP Keepalive生效链条涉及三个环节:你的应用程序或连接池是否





