首页 游戏 软件 资讯 排行榜 专题
首页
AI
OpenAI开源新模型:稀疏性方法革新,99.9%权重为0

OpenAI开源新模型:稀疏性方法革新,99.9%权重为0

热心网友
17
转载
2025-12-15

闻乐·发自凹非寺

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

量子位 | 微信公众号 QbitAI

破解AI胡言乱语的关键,竟然是为大模型切断99.9%的连接线?

OpenAI悄然开源新模型,仅有0.4B参数,且99.9%的权重为零。

OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE

这正是Circuit Sparsity技术的开源实现。

OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE

这是一种通过人为约束模型内部连接的稀疏性,让模型计算过程可拆解、可理解的大语言模型变体,本质上是为了解决传统稠密Transformer的黑箱问题,让内部的计算电路能被人类清晰解读,知道AI是如何做决策的,避免轻易相信AI的胡话。

OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE

更有人直言这种“极致稀疏+功能解耦”的思路可能会让当下热门的MoE走上末路。

OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE

那么,当Transformer的权重被训练到近乎全0,会发生什么呢?

放弃粗糙近似,追求原生稀疏

先说说为啥这个模型的思考过程能像电路图一样好懂。

咱们平时用的传统大模型,内部神经元连接得密密麻麻,权重矩阵几乎全为非零值,信息传递呈现出高度叠加状态,就像一团扯不开的乱线,没人能说清它是怎么得出某个结论的。

而Circuit Sparsity模型反其道而行之,基于GPT-2风格的Transformer架构训练时,通过严格约束让权重的L0范数极小,直接把99.9%的无效连接砍断,只留下千分之一的有效通路。

OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE

这些留存的非零权重连接就像电路图里的导线,信息只能沿着固定路径传递;同时,模型还会通过均值屏蔽剪枝方法,为每个任务拆出专属的最小电路。

比如处理Python引号闭合任务时,仅需2个MLP神经元和1个注意力头就能构成核心电路,包含专门的引号检测器、类型分类器等功能模块,就像电路图里的电阻、电容,各自管各自的事。

OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE

实验数据显示,在预训练损失相同的前提下,稀疏模型的任务专属电路规模比稠密模型小16倍,且具备严格的必要性与充分性——保留这些模块就能完成任务,删掉任一节点则直接失效。

这样,每一步的逻辑都能精准追踪。

那这时候就不得不提当下主流的MoE模型了。

MoE的核心思路是通过门控网络将模型拆分为多个专家子网络,每个专家负责处理一部分任务,靠路由器分配任务来提升效率,本质上是用拆分专家这种粗糙的方式近似稀疏性,目的只是为了适配硬件的稠密矩阵计算需求。

但这种架构存在致命缺陷:

一是会割裂模型的特征流形,导致专家同质化严重、知识冗余等问题,不同专家间的信息协同依赖复杂的负载均衡损失函数调控,稳定性堪忧;

二是专家功能边界模糊,无法像Circuit Sparsity模型那样实现微观机制的精准拆解。

反观Circuit Sparsity,追求的是模型原生的稀疏性,通过把特征投射到超大维度,再严格限制有效激活的节点数量,从设计上就让每个特征变得单义、正交,从根源上解决了传统模型一个概念分散在多个节点的叠加问题,不用靠路由器这种 hack 手段也能避免信息干扰。

OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE

不过Circuit Sparsity目前也有明显的短板,最突出的就是算力成本极高。

训练和推理的计算量是传统稠密模型的100-1000倍,暂时还达不到顶尖大模型的能力;

而MoE模型在算力效率和性能平衡上已经很成熟,短期内依然会是工业界的主流选择。

并且,这项工作也只是AI可解释性探索的早期一步,未来团队计划将技术扩展到更大的模型,解锁更复杂的推理电路。

目前,团队发现有四种克服稀疏模型训练效率低下的方法:

一个是直接从现有的密集模型中提取稀疏电路,这样直接复用基础框架,不额外训练稀疏模型,能大幅降低成本;

另一种途径则不放弃从零训练可解释稀疏模型的这种思路,但针对训练慢、成本高的短板,从技术层面优化训练机制,造出原生可解释、且能高效落地的模型。

那就期待研究人员后续用更成熟的工具或技术,逐步揭开大模型的黑箱面纱了。

来源:https://tech.ifeng.com/c/8p4pHK3iykC
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

亚马逊 2 月 26 日发布新一代 Alexa 生成式AI 服务,使用 Claude 模型
AI
亚马逊 2 月 26 日发布新一代 Alexa 生成式AI 服务,使用 Claude 模型

亚马逊按下“重启键”:下一代Alexa能否重夺AI语音王座? 科技圈又有新动静了。就在今天,亚马逊发出了人工智能主题活动的邀请函,时间定在2月26日。多方信源,包括路透社的报道均指向一个焦点:亚马逊计划在此次活动上,正式推出其下一代、基于生成式人工智能的Alexa服务。 话说回来,自2014年面世以

热心网友
04.28
派欧算力云 AI 云端一体化解决方案: 模型 API、Serverless、GPU 租赁
AI
派欧算力云 AI 云端一体化解决方案: 模型 API、Serverless、GPU 租赁

派欧算力云产品介绍 人工智能的浪潮正席卷各行各业,企业和开发者们面临一个共同的挑战:如何快速、经济且高效地获取AI算力,将创意迅速转化为市场产品?面对这一需求,一站式AI云服务平台——派欧算力云,提供了颇具吸引力的答案。本文将带你深入剖析派欧算力云的核心功能、独特优势以及应用路径,看它如何为企业的A

热心网友
04.27
京东开源图像模型JoyAI-Image-Edit,从平面修图升级为三维空间重塑
AI
京东开源图像模型JoyAI-Image-Edit,从平面修图升级为三维空间重塑

京东开源图像模型JoyAI-Image-Edit,从平面修图升级为三维空间重塑 4月7日,京东探索研究院正式宣布,开源自研的JoyAI-Image-Edit图像模型。这不仅是又一个开源工具,更标志着图像生成编辑技术的一次关键转向:从二维平面迈入了三维空间。 简单来说,这个模型被设计为业内首个将“空间

热心网友
04.15
Anthropic启动Project Glasswing计划,向业界提供 Claude Mythos模型1亿美元调用额度
AI
Anthropic启动Project Glasswing计划,向业界提供 Claude Mythos模型1亿美元调用额度

Anthropic启动Project Glasswing计划,集结科技巨头共筑软件安全防线 近日,人工智能公司Anthropic启动了一项名为“Project Glasswing”的新计划。这项计划的核心目标,是借助其尚未公开发布的Claude Mythos Preview模型,来加强全球关键软件基

热心网友
04.15
断层碾压Seedance 2.0:神秘“欢乐马”空降榜首,视频AI变天了
AI
断层碾压Seedance 2.0:神秘“欢乐马”空降榜首,视频AI变天了

就在 OpenAI 都停了 Sora,所有人以为 Seedance 2 0 要一统天下的时候,没想到不知哪里冒出来一匹马。 周二晚间,在知名 AI 评测分析平台 Artificial Analysis 上,一个代号为「HappyHorse-1 0」的神秘视频生成模型空降榜首,引发了 AI 社区热议。

热心网友
04.15

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

霸王茶姬回应顾客喝出水银:高度重视 一切以调查结果为准
业界动态
霸王茶姬回应顾客喝出水银:高度重视 一切以调查结果为准

霸王茶姬回应顾客喝出疑似水银物质:门店称流程不可能出现,正配合调查 近日,一则关于新茶饮的消费纠纷引发了广泛关注。据媒体报道,安徽宿州一位消费者反映,其在霸王茶姬砀山万达广场门店购买的饮品中,发现了疑似水银的液态金属物质。 根据消费者描述,事情始于饮用时尝到的异常颗粒感。随后仔细查看,竟在杯底发现了

热心网友
04.28
车身升高、中控屏加大!二代哈弗H9 2026款上市:17.49万起
业界动态
车身升高、中控屏加大!二代哈弗H9 2026款上市:17.49万起

2026款哈弗H9正式上市:硬派越野的全面进阶 4月28日,备受关注的2026款哈弗H9公布了最新动态。新车指导价定在19 99万至24 79万元区间,并推出了颇具吸引力的限时换新价——17 49万元起,顶配车型也仅需22 29万元。这个价格策略,无疑让硬派越野的门槛变得更亲民了。 外观:硬朗气场再

热心网友
04.28
Ubuntu系统Java路径怎么配置
编程语言
Ubuntu系统Java路径怎么配置

在Ubuntu系统中配置Ja va路径 在Ubuntu系统里配置Ja va环境,其实是个挺常见的需求。这事儿说简单也简单,核心就两步:设置好JA VA_HOME环境变量,再把Ja va的可执行文件路径加到PATH里。下面咱们就一步步来,把这事儿彻底搞定。 第一步:安装Ja va 如果你系统里还没装J

热心网友
04.28
小米汽车公布五一假期专项售后服务:24小时不限里程免费救援、赠送500打车券
业界动态
小米汽车公布五一假期专项售后服务:24小时不限里程免费救援、赠送500打车券

小米汽车发布五一假期专项售后服务,为车主出行保驾护航 五一假期将至,出行高峰随之而来。就在今天,小米汽车正式发布了针对2026年五一假期的专项售后服务保障方案。这项服务聚焦车主在假期出行中可能遇到的各类突发状况,推出了一系列重磅权益,覆盖了整个假期时段,从4月29日一直持续到5月6日。 此次专项服务

热心网友
04.28
Ubuntu中Java内存设置如何调整
编程语言
Ubuntu中Java内存设置如何调整

在Ubuntu系统中调整Ja va内存设置 在Ubuntu系统上运行Ja va应用,内存配置是个绕不开的话题。调得好,应用跑得飞快;调得不对,性能瓶颈甚至崩溃都可能找上门。好在调整方法并不复杂,关键得找准场景。下面这张图,可以帮你快速建立起一个直观的印象: 接下来,咱们就聊聊几种主流的调整路径,你可

热心网友
04.28