DeepMind 最新研究揭秘 AlphaZero 黑箱内部运作原理

首页

热心网友

转载

2026-05-15

国际象棋，长久以来被视为人工智能发展的“试金石”。早在七十年前，计算机科学先驱艾伦·图灵就曾提出一个设想：能否创造一台能够自主学习、并在实践中不断进化的下棋机器？从依赖人类专家知识编程、首次战胜世界冠军的“深蓝”，到2017年横空出世的AlphaZero，图灵的愿景最终被一个基于神经网络的强化学习系统实现了。

AlphaZero的核心突破在于其独特的训练模式：它不依赖于任何人为预设的启发式规则，也无需参考人类历史棋谱，完全通过海量的自我对局进行学习与迭代进化。

这引发了一个关键性的思考：在这种“从零开始”的自我进化过程中，AlphaZero是否真正理解和掌握了人类棋手所认知的那些国际象棋战术概念？这个问题直接触及了神经网络可解释性研究的核心。

近期，AlphaZero的创造者Demis Hassabis与其DeepMind团队及谷歌大脑的研究人员合作，在发表于《美国国家科学院院刊》（PNAS）的一项研究中给出了肯定的答案。他们不仅在AlphaZero的神经网络中找到了人类象棋概念的明确表征，还清晰地揭示了这些概念是在训练过程中何时、在网络的哪个部分被习得的，甚至发现了AlphaZero与人类棋手截然不同的棋风与策略偏好。

AlphaZero如何在训练中习得人类象棋概念

AlphaZero的网络架构包含一个作为骨干的残差网络（ResNet），以及独立的策略头和价值头。其训练从一个参数随机初始化的神经网络开始，通过反复的自我对弈、棋局评估，并利用生成的数据迭代更新网络参数。

为了探究AlphaZero的网络在多大程度上编码了人类棋手的思维模式，研究团队采用了“稀疏线性探测”这一前沿方法。简而言之，该方法旨在将网络参数在训练过程中的动态变化，映射到人类可理解的概念变化上。

具体而言，研究人员首先将人类象棋知识“翻译”成一系列可计算的函数，即“概念标签”。例如，“我方是否拥有主教”就是一个基础概念。更复杂的如“棋子机动性”，则需要编写函数来量化并对比双方棋子的可移动范围得分。

随后，他们利用ChessBase数据集中的大量真实棋局作为样本，在AlphaZero网络不同层的激活值上，训练一个稀疏回归“探针”，用以预测某个特定概念的值。通过比较不同训练阶段、不同网络层中探针的预测精度，研究人员绘制出了一张详细的“概念学习地图”，直观展示了“何种概念”、“在何时”、“于何处”被网络所掌握。如图2所示。

图1：在AlphaZero网络（蓝色）中探索人类编码的国际象棋概念。

例如，可以用一个函数来确定我方或地方是否有“主教” (♗) ：

图2：从A到B的概念分别是“对总分的评估”、“我方被将军了吗”、“对威胁的评估”、“我方能吃掉敌方的皇后吗”、“敌方这一步棋会将死我方吗”、“对子力分数的评估”、“子力分数”、“我方有王城兵吗”。

分析这些“概念学习地图”可以揭示几个关键模式。首先，许多概念的学习轨迹呈现出高度一致性：在训练约3.2万步之前，网络各层对概念的编码精度普遍较低；此后，精度随着网络深度迅速提升并趋于稳定。这表明，与概念相关的核心计算大多发生在网络的相对浅层，更深层的残差块可能更专注于落子选择或计算其他未明确定义的高级特征。

其次，随着训练的推进，大量人类定义的概念都能以很高的准确率从AlphaZero的内部表征中预测出来。但不同概念的掌握时机存在差异。像“子力价值”和“空间控制”这类基础概念，在训练仅2千步时就已初现端倪；而更复杂的“王的安全”、“威胁评估”、“机动性”等高级概念，则要到8千步后才开始被显著捕捉，并在3.2万步后出现实质性增长。这与图2中显示的精度的“陡升”拐点相吻合。

值得注意的是，大多数概念的探测精度在经历初期的快速增长后，会进入平台期甚至出现轻微下降。这暗示，当前的方法可能只触及了网络所学知识的表层，要理解更深层、更抽象的表征，或许需要开发更先进的探测与分析技术。

AlphaZero的开局策略与人类棋手存在显著差异

既然证实了AlphaZero能够学会人类概念，研究人员顺理成章地追问：它对战术的理解，尤其是在开局阶段的选择，是否也与人类棋手的共识一致？毕竟，开局偏好深刻反映了棋手对棋盘局势背后各种概念的权衡与评估。

答案是否定的。研究发现，AlphaZero与人类在开局策略的演化路径上截然不同，甚至可以说是背道而驰。

回顾人类国际象棋发展史，开局库是不断拓宽和丰富的。早期棋手普遍偏爱第一步走王前兵（e4），后来才逐渐发展出后前兵（d4）、英国式开局等更多样、更平衡的体系。然而，AlphaZero的演化路径恰恰相反：在训练初期，它对所有合法第一步的评估相对平均；随着训练深入，其选择范围却逐渐收窄，表现出对后前兵（d4）等特定走法的明显且稳定的偏好。

图3：随着训练步骤和时间的推移，AlphaZero和人类对第一步的偏好比较。

这种差异的根源尚不完全明确，但很可能反映了人类集体智慧结晶与机器自我探索之间的根本不同。人类棋谱库凝聚了历代大师的经验与智慧，而AlphaZero的训练数据则混合了从初级到高级的自我对弈棋局，且其训练过程为了鼓励探索而引入了大量随机性。

更有趣的是，即便在AlphaZero内部，不同训练周期产生的模型，其开局偏好也并非一成不变，而是呈现出丰富的多样性。以经典的“西班牙开局”为例，AlphaZero在早期训练中会遵循人类常见的应对（1.e4 e5, 2.Nf3 Nc6, 3.Bb5）。但在不同的训练运行中，它会逐渐收敛到两种不同的偏好上：3...a6 或 3...f6。并且，这种偏好早在训练初期就已确立。

这强有力地说明，在国际象棋这个复杂的策略空间中，通往胜利的道路不止一条。策略的多样性不仅存在于人机之间，也存在于人工智能模型内部不同的“进化分支”里。

AlphaZero掌握知识的具体过程解析

那么，AlphaZero对开局策略的探索，与其对各类象棋概念的掌握过程有何内在关联？研究发现，两者在时间线上存在清晰的呼应关系。

在许多概念的“学习地图”中，可以观察到一个明显的性能拐点，而这个拐点出现的时间，正好与开局偏好发生显著变化的时间段重叠。特别是“子力价值”和“机动性”这两个核心概念，它们似乎直接驱动了开局策略的演变。

“子力价值”的概念主要在训练1万到3万步之间被牢固掌握，而“棋子机动性”的概念则在同期逐步整合到网络的价值头评估中。合乎逻辑的是，对棋子基础价值的理解应先于对棋子灵活性的评估。随后，AlphaZero将这套整合后的评估理论应用于开局选择，其偏好在大约2.5万到6万训练步之间趋于稳定。

基于这些发现，研究人员勾勒出AlphaZero知识演进的三个阶段：首先是发现并掌握基本的“子力”价值；随后进入一个短暂但密集的知识爆发期，快速吸收如“机动性”、“空间”等相关高级概念；最后是一个漫长的精炼与优化阶段，神经网络的开局策略在数十万步的训练中不断微调固化。值得注意的是，虽然整体学习周期很长，但某些基础能力会在相对短暂的时间窗口内“顿悟”般快速涌现。

这一结论甚至得到了前国际象棋世界冠军弗拉基米尔·克拉姆尼克的认同，他的实战观察与上述学习过程不谋而合。

总结与展望

总而言之，这项研究提供了有力证据，证明AlphaZero通过纯粹的自我对弈学到的棋盘内部表征，能够重建大量人类国际象棋的战术概念，并清晰揭示了这些知识在网络中的时空分布规律。同时，它也展现了与人类棋手不同的风格与独特的进化路径。

这项研究也自然引出了下一个更深层的问题：既然我们现在能以人类概念为“透镜”来部分理解神经网络，那么，神经网络是否也能发现并掌握超越人类现有知识范畴的全新概念与制胜策略呢？这或许是通向更通用、更强大人工智能的关键一步，也为AI可解释性研究开辟了新的方向。

来源:https://www.leiphone.com/category/academic/e3bRn92NQTPtFICq.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：618迅雷超级会员限时特惠月费10.3元享12T超大云盘下一篇：贺年卡中的尖端AI技术应用与原理详解

热门推荐

系统平台

银河麒麟系统SSH公钥登录配置与安全远程连接指南

在麒麟操作系统上配置SSH公钥登录，不仅能免去每次输入密码的繁琐，更能显著增强远程连接的安全性。整个过程并不复杂，核心步骤围绕密钥生成、公钥部署和服务端配置展开。本文将详细介绍几种主流方法，涵盖从自动化部署到手动配置，助你轻松完成麒麟系统SSH密钥登录设置。一、使用ssh-keygen与ssh-c

热心网友

05.15

系统平台

银河麒麟系统登录循环故障解决方法与桌面修复指南

登录循环闪退应先删 Xauthority和 ICEauthority文件、修复 tmp权限为1777、重置ukui mate dconf配置、清理磁盘空间、重装lightdm并重新配置。在银河麒麟操作系统中输入密码后，屏幕一闪又回到登录界面，这种“登录循环”问题确实令人困扰。这通常并非硬件故障，而

热心网友

05.15

web3.0

GUSD稳定币详解：项目背景、核心用途与投资风险全解析

GUSD是一种与美元1:1锚定的合规稳定币，由Gemini交易所发行并受纽约州金融服务部监管。其核心价值在于为加密世界提供透明、受监管的美元等价物，主要应用于交易、支付和价值存储。投资者需关注其中心化托管风险、监管政策变化及智能合约潜在漏洞，理解其作为传统金融与加密市场桥梁的定位与局限。

热心网友

05.15

系统平台

Win11如何设置默认音频输出设备与调整音量

在Windows 11系统中，确保系统音频稳定输出到指定设备（如已连接的耳机或已配对的蓝牙音箱），核心在于正确配置默认音频输出设备。您可以通过任务栏快速设置、系统设置应用、控制面板声音对话框、音量混合器下拉菜单或Win+Ctrl+V快捷键这五种主流方案，实现即时切换或永久性配置，彻底解决声音输出错乱

热心网友

05.15

宏胜集团高管变动与业务外包调整深度解析

宏胜集团近期发生重要人事与业务调整。总裁办主任叶雅琼、销售总经理吴汀燕、法务部部长周卓盈及生产管理科科长吴潘潘等多位高管已离职，该消息已获接近集团人士证实。与此同时，集团启动了部分非生产业务的外包运作，显示出其正在优化内部结构与运营模式。这一系列变动可能意味着公司正处于战略调整期，旨在聚焦核心业务并

热心网友

05.15