深度学习三巨头之一Yoshua Bengio的下一步动向终于公开了——这次重心放在了AI安全上。

他加入了一个名为Safeguarded AI(受保护的人工智能)的项目,担任科学总监。简单来说,这个项目想干一件大事:通过结合科学的世界模型和数学证明,构建一个专门负责理解和降低其它AI Agent风险的AI系统。主打量化安全保障,而不是空口说白话。
项目由英国高级研究与发明局(ARIA)提供支持,据说未来ARIA将投入共计5900万英镑(约合软妹币5.37亿元)。Bengio对此的表态很干脆:“如果你计划部署某种技术,鉴于AI行为异常或误用可能带来非常严重的后果,你需要提出充分的理由,最好能提供强有力的数学保证,确保你的AI系统将正常运作。”
这话说得够硬核,也正呼应了项目的核心逻辑。
“受保护的AI”
Safeguarded AI项目被划分为三个技术领域,每个领域都有明确的目标和预算:
- 支架(Scaffolding):构建一个可扩展、可互操作的语言和平台,用于维护现实世界模型/规范并检查证明文件。
- 机器学习(Machine Learning):使用前沿AI帮助领域专家构建一流的复杂现实世界动力学的数学模型,并利用前沿AI训练自主系统。
- 应用(Applications):在关键的网络-物理操作环境中部署一个由“把关AI”保护的自主AI系统,通过量化的安全保障释放重要的经济价值。
官方表示,Bengio加入后将特别关注TA3和TA2两个领域,在整个计划中提供科学战略建议。ARIA还计划投入1800万英镑(约合软妹币1.64亿)成立一个非营利组织,专门领导TA2的研发工作。
项目总监是前Twitter高级软件工程师Da vid “da vidad” Dalrymple,去年9月加入ARIA。他还在X上晒了和Bengio的合照,颇有几分“大佬联手”的味道。
关于“构建一个负责理解和降低其它AI Agent风险的AI系统”的具体方法论,Dalrymple、Bengio等人专门起草了一份文件。其中提出了一套称为Guaranteed Safe AI(保证安全的AI)的模式,核心是通过三个相互作用的组件量化AI系统的安全保障:
- 世界模型:提供数学描述,阐述AI系统如何影响外部世界,并妥善处理贝叶斯和奈特不确定性。
- 安全规范:定义哪些效果是可接受的数学描述。
- 验证器:提供证明AI符合安全规范的可审计证书。
他们还为创建世界模型的策略划分了L0到L5共六个安全等级:
- Level 0:没有明确的世界模型。关于世界的假设隐含在AI系统的训练数据和实现细节中。
- Level 1:使用经过训练的黑盒世界模拟器作为世界模型。
- Level 2:使用机器学习生成的概率因果模型的生成模型,可以通过检查它是否为特定的人类制作的模型(例如科学文献中提出的模型)分配足够的可信度来进行测试。
- Level 3:使用(一个或多个)概率因果模型(或它们的分布),可能在机器学习的帮助下生成,这些模型经过人类领域专家的全面审核。
- Level 4:使用关于真实世界现象的世界模型,这些模型被正式验证为基本物理定律的合理抽象。
- Level 5:不依赖具体的世界模型,而是使用覆盖所有可能世界的全局性安全规范。
这个分级体系从“完全黑箱”一步步走向“全局可证明”,很有层次感。实际应用中,可能大多数人会从Level 2或Level 3起步,但最终目标显然是Level 5那种“万能保险”的境界。
“AI风险”备受学术圈关注
AI风险早就是行业大佬们唇枪舌战的焦点。Hinton离职谷歌,为的就是能自由讨论AI风险。之前吴恩达、Hinton、LeCun、哈萨比斯等AI巨佬线上“对喷”的那场大戏,想必不少人还记忆犹新。
吴恩达曾经表示:对AI最大的担忧其实是AI风险被过度鼓吹,导致开源和创新被严苛规定压制。某些人传播AI灭绝人类的恐惧,只是为了搞钱。而DeepMind CEO哈萨比斯则针锋相对:这不是恐吓,AGI的风险如果到现在才开始讨论,后果可能很严重。我不认为我们会想在危险爆发之前才开始做防范。
Bengio此前也和Hinton、姚期智、张亚勤等人工智能大拿联合发表了一封公开信《在快速进步的时代管理人工智能风险》。信中明确指出:人类必须认真对待AGI在这十年或下一个十年内在许多关键领域超越人类能力的可能性。建议监管机构应该对AI发展全面洞察,尤其警惕那些在价值数十亿美元的超级计算机上训练出来的大模型。
就在一个月前,Bengio还专门写了一篇文章,论证为什么要认真对待AI安全。他反驳了那些“不必杞人忧天”的观点,逻辑清晰,说服力很强。如果你对这个话题感兴趣,可以去翻翻他的个人博客。
