首页 游戏 软件 资讯 排行榜 专题
首页
AI
OpenAI开源稀疏模型:99.9%权重为零,新方法替代MoE

OpenAI开源稀疏模型:99.9%权重为零,新方法替代MoE

热心网友
42
转载
2025-12-15

闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

破解AI胡说八道的关键,居然是给大模型砍断99.9%的连接线?

OpenAI悄悄开源新模型,仅有0.4B参数,且99.9%的权重为零。



也就是Circuit Sparsity技术的开源实现。



这是一种通过人为约束模型内部连接的稀疏性,让模型计算过程可拆解、可理解的大语言模型变体,本质上是为了解决传统稠密Transformer的黑箱问题,让内部的计算电路能被人类清晰解读,知道AI是如何做决策的,避免轻易相信AI的胡话(doge)。



更有人直言这种「极致稀疏+功能解耦」的思路可能会让当下热门的MoE(混合专家模型)走上末路。



那么,当Transformer的权重被训练到近乎全0,会发生什么呢?

放弃粗糙近似,追求原生稀疏

先说说为啥这个模型的思考过程能像电路图一样好懂。

咱们平时用的传统大模型,内部神经元连接得密密麻麻,权重矩阵几乎全为非零值,信息传递呈现出高度叠加状态,就像一团扯不开的乱线,没人能说清它是怎么得出某个结论的。

而Circuit Sparsity模型反其道而行之,基于GPT-2风格的Transformer架构训练时,通过严格约束让权重的L0范数极小,直接把99.9%的无效连接砍断,只留下千分之一的有效通路。



这些留存的非零权重连接就像电路图里的导线,信息只能沿着固定路径传递;同时,模型还会通过均值屏蔽剪枝方法,为每个任务拆出专属的最小电路

比如处理Python引号闭合任务时,仅需2个MLP神经元和1个注意力头就能构成核心电路,包含专门的引号检测器、类型分类器等功能模块,就像电路图里的电阻、电容,各自管各自的事。



实验数据显示,在预训练损失相同的前提下,稀疏模型的任务专属电路规模比稠密模型小16倍,且具备严格的必要性与充分性——保留这些模块就能完成任务,删掉任一节点则直接失效。

这样,每一步的逻辑都能精准追踪。

那这时候就不得不提当下主流的MoE模型了。

MoE的核心思路是通过门控网络将模型拆分为多个专家子网络,每个专家负责处理一部分任务,靠路由器分配任务来提升效率,本质上是用拆分专家这种粗糙的方式近似稀疏性,目的只是为了适配硬件的稠密矩阵计算需求。

但这种架构存在致命缺陷:

一是会割裂模型的特征流形,导致专家同质化严重、知识冗余等问题,不同专家间的信息协同依赖复杂的负载均衡损失函数调控,稳定性堪忧;二是专家功能边界模糊,无法像Circuit Sparsity模型那样实现微观机制的精准拆解。

反观Circuit Sparsity,追求的是模型原生的稀疏性,通过把特征投射到超大维度,再严格限制有效激活的节点数量,从设计上就让每个特征变得单义、正交,从根源上解决了传统模型一个概念分散在多个节点的叠加问题,不用靠路由器这种hack手段也能避免信息干扰。



不过Circuit Sparsity目前也有明显的短板,最突出的就是算力成本极高。

训练和推理的计算量是传统稠密模型的100-1000倍,暂时还达不到顶尖大模型的能力;

而MoE模型在算力效率和性能平衡上已经很成熟,短期内依然会是工业界的主流选择。

并且,这项工作也只是AI可解释性探索的早期一步,未来团队计划将技术扩展到更大的模型,解锁更复杂的推理电路。

目前,团队发现有两种克服稀疏模型训练效率低下的方法:

一个是直接从现有的密集模型中提取稀疏电路,这样直接复用基础框架,不额外训练稀疏模型,能大幅降低成本;另一种途径则是不放弃从头训练可解释稀疏模型的这种思路,但针对训练慢、成本高的短板,从技术层面优化训练机制,造出原生可解释、且能高效落地的模型。

那么就期待研究人员后续用更成熟的工具或技术,逐步揭开大模型的黑箱面纱了。


[1]https://openai.com/zh-Hans-CN/index/understanding-neural-networks-through-sparse-circuits/
[2]https://x.com/byebyescaling/status/1999672833778287033?s=20

— 完 —

来源:https://www.163.com/dy/article/KGOCMK6D0511DSSR.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

字节跳动破解AI记忆难题:视频生成如何实现连续思维
科技数码
字节跳动破解AI记忆难题:视频生成如何实现连续思维

这项由香港中文大学的郭宇伟、字节跳动的杨策元等研究团队合作完成的突破性研究,于2024年12月发表在计算机视觉领域的顶级会议上。对这项研究感兴趣的读者可以通过arXiv:2512 15702v1查询

热心网友
12.19
Mamba团队SonicMoE:新增1个Token,MoE训练速度提升近2倍
AI
Mamba团队SonicMoE:新增1个Token,MoE训练速度提升近2倍

机器之心编辑部混合专家(MoE)模型已成为在不显著增加计算成本的情况下,实现语言模型规模化扩展的事实标准架构。近期 MoE 模型展现出明显的高专家粒度(更小的专家中间层维度)和高稀疏性(在专家总数增

热心网友
12.19
OpenAI开源0.4B“小模型”:轻量化AI性能大解析
AI
OpenAI开源0.4B“小模型”:轻量化AI性能大解析

智东西作者 王涵编辑 心缘智东西12月15日报道,昨天,OpenAI开源新模型Circuit-Sparsity,模型参数量仅0 4B,99 9%的权重为零。▲Circuit-Sparsity开源(来

热心网友
12.15
OpenAI开源稀疏模型:99.9%权重为零,新方法替代MoE
AI
OpenAI开源稀疏模型:99.9%权重为零,新方法替代MoE

闻乐 发自 凹非寺量子位 | 公众号 QbitAI破解AI胡说八道的关键,居然是给大模型砍断99 9%的连接线?OpenAI悄悄开源新模型,仅有0 4B参数,且99 9%的权重为零。也就是Circu

热心网友
12.15

最新APP

铁锈战争
铁锈战争
棋牌策略 03-31
你说我猜
你说我猜
休闲益智 03-31
史莱姆农场
史莱姆农场
休闲益智 03-31
凡人传说
凡人传说
角色扮演 03-30
恶魔秘境
恶魔秘境
角色扮演 03-29

热门推荐

iPhone 17系列国内销量近2600万台,强势领跑市场
iphone
iPhone 17系列国内销量近2600万台,强势领跑市场

近日,数码博主“RD观测”曝光的数据显示,截至2026年第12周,iPhone 17系列在中国市场的销量已接近2600万台,达到约2598 22万台。这一数字远超同期国产旗舰机型的表现,例如小米17

热心网友
03.31
小红书聚光平台官方登录入口与广告投放指南
电脑教程
小红书聚光平台官方登录入口与广告投放指南

小红书聚光平台最新登录网址为https: ad xiaohongshu com,需通过App扫码授权登录,首次使用须提交企业资质审核,支持新建推广计划、多维人群定向、创意素材上传

热心网友
03.31
华为乾崑/启境GT7猎装智能车6月上市,预定即交付
科技数码
华为乾崑/启境GT7猎装智能车6月上市,预定即交付

IT之家 3 月 31 日消息,启境汽车最新微博今日重新发布了答网友问(第 7 期),针对华为乾崑 | 启境 GT7 新一代智能猎装车上市交付时间安排进行了调整。启境汽车最新表示,启境 GT7 计划

热心网友
03.31
智谱高层解读模型首份成绩单:Token量价齐升背后的持续性
科技数码
智谱高层解读模型首份成绩单:Token量价齐升背后的持续性

3月31日,“大模型第一股”智谱(2513 HK)发布上市后首份年度业绩公告。财报显示,智谱2025年总营业收入7 24亿元,同比增长131 9%;年内亏损47 18亿元,同比扩大59 5%;经调整

热心网友
03.31
AI支付进阶:向B端开放能力,拓展C端场景应用
科技数码
AI支付进阶:向B端开放能力,拓展C端场景应用

AI在支付领域又有新应用。3月31日,支付宝发布 "支付宝支付集成Skill ",让开发者无需编写代码,就能在VibeCoding中通过自然语言,利用AI帮忙快速接入支付宝当面付、预授权支付、商家扣款等

热心网友
03.31