首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
840亿AI实验室创新突破:大模型安全管控新方案

840亿AI实验室创新突破:大模型安全管控新方案

热心网友
87
转载
2025-09-28

OpenAI前首席技术官Mira Murati创办的Thinking Machines Lab再出新成果!

继《征服LLM推理中的非确定性难题》之后,团队发布第二篇重磅论文——《模块流形研究》。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

\

完整研究博客:https://thinkingmachines.ai/blog/modular-manifolds/

训练大型神经网络如同"走钢丝",研究人员需要精细调控其内部参数状态,既要防止权重、激活值或梯度这些关键张量数值溢出,又要避免梯度消失的问题。

核心突破点是建立统一的量级管理系统。

基础控制手段方面:

  • Layer Norm技术负责将每层输出调整到合理范围
  • 梯度归一化处理如Muon优化器的谱归一化控制更新幅度

进阶方案涉及直接管控权重张量本身。

研究提出通过对权重矩阵进行归一化,将参数约束在特定子流形上的创新思路,实现了优化算法与流形约束的协同设计。

这使训练过程转变为"预防式"管控:

  • 初始参数即处于最佳区间
  • 训练稳定性显著提升
  • 模型可解释性增强
  • 整体训练效率优化

流形优化器的核心原理

从数学角度看,流形可以被视为局部呈现平坦特性的曲面。

当放大观察时,其局部几何形态与欧几里得空间无异。

流形上某点附近的平坦区域被称为"切空间"。

\

图1展示了三维球面及其切平面的数学表示。

为确保权重始终保持在指定流形内,研究者采用了以下方法:

  1. 使用常规优化器进行参数更新
  2. 通过投影操作将调整后的权重映射回流形

但该方法存在步长效率损失问题:大幅偏离后的强制投影会导致实际参数更新与学习率设定产生偏差。

要设计真正有效的流形训练算法,必须明确切空间的度量标准。研究人员开创性地直接在切空间实施优化,使学习率与参数实际位移精确对应。

\

图2展示了不同距离度量方式对优化方向的影响。

\

图3中粉色箭头表示原始梯度方向,值得注意的是最优更新方向未必与之完全重合。

数学推导过程将约束优化问题转化为: \

引入拉格朗日乘数法求解: \

最终得到的关键方程为: \

完整算法流程如图4所示: \

流形Muon优化器

针对Transformer架构,研究人员特别设计了流形约束方案:

  • 权重矩阵W需满足奇异值全部为1
  • 采用Stiefel流形数学框架
  • 引入谱范数约束最大拉伸效应

\

通过凸优化问题求解: \

采用对偶上升法计算: \

推导得梯度表达式: \

实验结果验证如图6所示: \

模块流形理论

该理论创新性地解决了多层网络的协同优化难题:

  • 建立层间学习率分配机制
  • 通过Lipschitz敏感性分析实现精确控制
  • 保持网络输出的稳定性边界

论文详细信息: https://thinkingmachines.ai/blog/modular-manifolds/

来源:https://36kr.com/p/3485551753272448
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

通义万相-通义万相拥有的文生图和图生图能力
AI
通义万相-通义万相拥有的文生图和图生图能力

说起AI作画,现在可真不是新鲜事了,但如何让工具既强大又好上手,一直是个挑战。而阿里云推出的通义万相,恰好在这两者之间找到了不错的平衡。它拥有的文生图和图生图能力,实实在在地降低了图片创作的门槛,让非专业人士也能玩转设计。未来,这套能力在艺术设计、游戏研发和文化创意等领域,潜力不可小觑。简单来说,它

热心网友
04.14
《王者荣耀世界》铜碎薇采集点详解-高效路线推荐
游戏攻略
《王者荣耀世界》铜碎薇采集点详解-高效路线推荐

《王者荣耀世界》铜碎薇高效采集全攻略 在《王者荣耀世界》的开放世界中,铜碎薇作为一种醒目的橙色品质草药,是玩家进行药品合成与角色培养不可或缺的基础资源。掌握其高效采集方法,对于开荒期快速积累资源、提升游戏体验至关重要。本文将为你详细解析铜碎薇的分布规律与最优采集路线,助你事半功倍。 经过实测,铜碎薇

热心网友
04.14
stariu-Stariu是一种基于人工智能技术的绘画工具助手辅助
AI
stariu-Stariu是一种基于人工智能技术的绘画工具助手辅助

Stariu:当灵感遇见AI,一个绘画助手的双向思维 在数字艺术创作领域,工具的价值不仅在于执行命令,更在于激发灵感。Stariu正是这样一位特别的“助手”——它基于人工智能技术,核心能力在于巧妙地打通图像与文字之间的隔阂,让创意在两种形态间自由流转。 具体来看,它的功能可以归结为三个相辅相成的方向

热心网友
04.14
《崩坏星穹铁道》幻月新游戏活动介绍-周年庆福利详解
游戏攻略
《崩坏星穹铁道》幻月新游戏活动介绍-周年庆福利详解

崩坏星穹铁道三周年庆典:幻月新游戏活动玩法与周年福利全解析 《崩坏星穹铁道》三周年庆典现已盛大开启,其中备受瞩目的「幻月新游戏」主题活动无疑是本次庆典的核心亮点。本次活动将采用分阶段、阵营对抗的玩法,玩家需选择支持的阵营,并通过完成各类日常与挑战任务为己方积累“愿力”。所有努力都将在最终的奖杯直播对

热心网友
04.14
TensorFlow-tensorFlow是一个用于进行高性能数值计算的开源软件库
AI
TensorFlow-tensorFlow是一个用于进行高性能数值计算的开源软件库

TensorFlow:从多维张量到智能应用的流动之旅 提起深度学习框架,TensorFlow是一个绕不开的名字。这个由谷歌团队打造的开源软件库,自2015年首次亮相以来,便迅速成为高性能数值计算,尤其是机器学习研究和生产应用的核心工具之一。它的强大之处在于,能够无缝支持从CPU、GPU到专用TPU在

热心网友
04.14