840亿AI实验室创新突破：大模型安全管控新方案

首页

科技数码

热心网友

转载

2025-09-28

OpenAI前首席技术官Mira Murati创办的Thinking Machines Lab再出新成果！

继《征服LLM推理中的非确定性难题》之后，团队发布第二篇重磅论文——《模块流形研究》。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

完整研究博客：https://thinkingmachines.ai/blog/modular-manifolds/

训练大型神经网络如同"走钢丝"，研究人员需要精细调控其内部参数状态，既要防止权重、激活值或梯度这些关键张量数值溢出，又要避免梯度消失的问题。

核心突破点是建立统一的量级管理系统。

基础控制手段方面：

Layer Norm技术负责将每层输出调整到合理范围
梯度归一化处理如Muon优化器的谱归一化控制更新幅度

进阶方案涉及直接管控权重张量本身。

研究提出通过对权重矩阵进行归一化，将参数约束在特定子流形上的创新思路，实现了优化算法与流形约束的协同设计。

这使训练过程转变为"预防式"管控：

初始参数即处于最佳区间
训练稳定性显著提升
模型可解释性增强
整体训练效率优化

流形优化器的核心原理

从数学角度看，流形可以被视为局部呈现平坦特性的曲面。

当放大观察时，其局部几何形态与欧几里得空间无异。

流形上某点附近的平坦区域被称为"切空间"。

图1展示了三维球面及其切平面的数学表示。

为确保权重始终保持在指定流形内，研究者采用了以下方法：

使用常规优化器进行参数更新
通过投影操作将调整后的权重映射回流形

但该方法存在步长效率损失问题：大幅偏离后的强制投影会导致实际参数更新与学习率设定产生偏差。

要设计真正有效的流形训练算法，必须明确切空间的度量标准。研究人员开创性地直接在切空间实施优化，使学习率与参数实际位移精确对应。

图2展示了不同距离度量方式对优化方向的影响。

图3中粉色箭头表示原始梯度方向，值得注意的是最优更新方向未必与之完全重合。

数学推导过程将约束优化问题转化为：

引入拉格朗日乘数法求解：

最终得到的关键方程为：

完整算法流程如图4所示：

流形Muon优化器

针对Transformer架构，研究人员特别设计了流形约束方案：

权重矩阵W需满足奇异值全部为1
采用Stiefel流形数学框架
引入谱范数约束最大拉伸效应

通过凸优化问题求解：

采用对偶上升法计算：

推导得梯度表达式：

实验结果验证如图6所示：

模块流形理论

该理论创新性地解决了多层网络的协同优化难题：

建立层间学习率分配机制
通过Lipschitz敏感性分析实现精确控制
保持网络输出的稳定性边界

论文详细信息： https://thinkingmachines.ai/blog/modular-manifolds/

来源:https://36kr.com/p/3485551753272448

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：长安马自达EZ-60能否突围中国纯电市场？下一篇：BJ30旅行家8.39万起，空间升级动力强劲，焕新出发

热门推荐

通义万相-通义万相拥有的文生图和图生图能力

说起AI作画，现在可真不是新鲜事了，但如何让工具既强大又好上手，一直是个挑战。而阿里云推出的通义万相，恰好在这两者之间找到了不错的平衡。它拥有的文生图和图生图能力，实实在在地降低了图片创作的门槛，让非专业人士也能玩转设计。未来，这套能力在艺术设计、游戏研发和文化创意等领域，潜力不可小觑。简单来说，它

热心网友

04.14