首页 游戏 软件 资讯 排行榜 专题
首页
AI
清华DECO架构破解边缘AI难题 手机大模型实现高效能低功耗

清华DECO架构破解边缘AI难题 手机大模型实现高效能低功耗

热心网友
95
转载
2026-05-15

2026年5月,一项由清华大学计算机科学与技术系及人工智能研究院主导的前沿研究以预印本形式发布,论文编号为arXiv:2605.10933。该研究精准聚焦于AI大模型部署的核心挑战:如何让参数量庞大的先进大语言模型,在算力与内存均受限的手机、平板电脑等边缘设备上实现高效、流畅的本地化运行?

清华大学的AI研究者,让手机上的大模型又快又聪明——DECO架构如何破解边缘设备的

当用户与手机内置的AI助手进行自然对话时,其背后支撑“思考”的模型参数量往往高达数百亿甚至千亿级别。这好比一座藏书量惊人的超级图书馆:知识储备越丰富,模型能力越强,但随之而来的计算开销与存储需求也呈指数级增长。边缘设备作为AI技术触达用户的“最后一公里”,普遍缺乏数据中心级别的强大算力与充裕内存,却承载着让AI真正无缝融入日常生活、保障数据隐私与低延迟交互的关键期望。

长期以来,研究界致力于寻找一种理想的平衡方案:如何让大模型在保持卓越智能表现的同时,在计算复杂度和存储占用上变得足够“轻量化”。清华大学团队提出的DECO(DEnse COmparable Sparse MoE)架构,正是针对这一目标而设计的创新解决方案。它旨在回答一个此前颇具争议的学术问题:在模型总参数量和训练数据总量严格对等的约束条件下,一个采用稀疏激活机制的混合专家模型,其性能能否真正媲美甚至超越传统的密集模型?

实验证明,答案是肯定的。

一、边缘AI的“不可能三角”困境及其挑战根源

我们延续图书馆的比喻来理解这一挑战。传统的密集模型(Dense Model)如同每次回答查询时,都必须翻阅馆内所有藏书,无论问题涉及家常菜谱还是量子物理。这种方式确保了知识调用的全面性,但带来了巨大的计算负担,尤其当模型规模(图书馆藏书量)极大时,其开销在资源受限的边缘端几乎无法承受。

因此,混合专家模型(Mixture of Experts, MoE)应运而生。它将庞大的模型(图书馆)划分为多个专业领域(专题分区),每次处理输入(查询)时,仅动态调用最相关的少数几个专家(分区),其余部分保持静默。这便是“稀疏激活”的核心思想,能显著降低单次推理的计算量。

然而,经典的MoE方案在部署至手机等边缘设备时暴露出新瓶颈。虽然每次推理仅激活一小部分参数(只翻阅少数分区的书),但模型的全部参数(整座图书馆的所有藏书)仍需完整加载到设备的有限内存中。这意味着MoE模型的总参数量往往是同等能力密集模型的数倍,对于内存容量紧张的移动设备而言,仅存储这些参数就已压力巨大,更遑论由此带来的高延迟与能耗问题。

于是,一个经典的“不可能三角”困境浮现:高性能、低计算开销、小存储占用,三者难以在边缘设备上同时实现。密集模型性能强但计算成本高;大规模MoE计算量低但存储需求大;经过激进压缩的模型存储小了,性能却往往严重受损。DECO架构的目标极为清晰:在总参数量与密集模型保持完全一致的前提下,通过更精巧的稀疏激活设计,实现同等乃至更优的性能表现——相当于在不扩建图书馆物理空间(不增加存储)的前提下,通过一套智能化的图书管理与检索系统,达到与翻阅全部藏书相同的服务质量。

这一设定极具挑战性,因为它摒弃了以往部分研究中MoE可能享有的潜在优势。过去许多声称MoE性能超越密集模型的工作,往往允许MoE使用更多的训练数据。而DECO的研究框架要求训练数据量也完全一致,从而在绝对公平的条件下验证其架构的有效性。

二、DECO架构解析:构建更智能的“专家分工”系统

DECO的架构创新主要围绕三个核心层面展开:路由决策机制(Router)、专家模块(Expert)的优化设计,以及对模型稀疏度的精准动态控制。

路由器设计:实现从“静态指派”到“动态感知”的进化

传统MoE通常采用Top-K路由策略,如同一个刻板的前台:无论用户问题的复杂程度如何,每次都固定地指派用户前往K个专家专区。对于简单问题,这可能造成资源浪费;对于复杂问题,又可能显得支持不足。更重要的是,这种路由决策在模型训练过程中是“不可微分”的,无法通过标准的梯度反向传播算法进行优化。

DECO创新性地采用了基于ReLU函数的动态路由机制。ReLU函数如同一个“仅允许正向信号通过”的智能过滤器:对于每个输入,路由器计算其对每位专家的“相关性分数”,若分数为正,则激活该专家;若为负或零,则完全忽略。这使得每个输入实际激活的专家数量是完全动态、由输入内容本身复杂度决定的。同时,由于ReLU函数是可微分的,整个路由决策过程得以融入端到端的训练流程,从而不断自我优化。

在此基础上,DECO引入了另一项关键创新:可学习的专家级缩放因子。在DECO中,除了被动态调用的路由专家,还存在一个始终参与计算的“共享专家”。问题在于,这位“通才”与各位“专才”的输出数值范围可能存在显著差异,直接融合可能导致信息失衡。DECO的解决方案是为每一位路由专家配备一个独立的、可在训练中自动学习的缩放系数,相当于为每位专家设置了一个个性化的“增益调节旋钮”。实验数据清晰表明,不同专家的输出强度差异巨大,这种个性化的调节机制至关重要,其效果显著优于采用固定或全局统一缩放因子的方案。

专家模块优化:确保专家稳定高效地“工作”

如果说路由器决定了“找哪位专家”,那么专家模块则决定了“专家如何工作”。DECO在此进行了两项至关重要的改进。

首先是提出了NormSiLU激活函数。传统MoE常使用SwiGLU等门控激活函数,但在与ReLU路由机制结合时,研究团队发现了两个严重问题:一是在训练初期,被激活的专家比例会失控地急剧上升,远超预设的稀疏目标;二是即使专家被激活,其输出幅度也会在训练中逐渐衰减至近乎为零,导致“激活却无贡献”。

NormSiLU通过两步归一化处理来解决上述问题。第一步是“专家间均值归一化”,确保所有专家的激活信号围绕零点分布,有效防止输出消失;第二步是“专家内RMS归一化”,稳定每个专家内部激活值的尺度,避免激活比例失控。实验证明,这两步归一化缺一不可,完整的NormSiLU在训练稳定性和最终模型性能上均表现最佳。巧妙的是,在模型推理阶段,第一步归一化可以预先计算并固化,几乎不引入额外开销。

第二个改进是选择了“非门控MLP专家”结构。在深度学习领域,包含复杂乘法交互的“门控MLP”(如SwiGLU)通常被认为性能更优。但DECO团队发现,在ReLU路由的框架下,情况恰好相反。门控结构产生的剧烈梯度波动会与动态路由决策产生强耦合,导致训练过程极不稳定,激活比例剧烈震荡。相比之下,结构更简单的非门控MLP专家则表现出平滑得多的训练曲线。实验结果明确显示,在使用ReLU路由时,非门控版本的性能显著优于门控版本。值得注意的是,对于使用固定Top-K路由的模型(如DeepSeek-V3),两者差异微乎其微。这充分说明,最优的专家结构高度依赖于所采用的路由机制。

三、精准的稀疏度控制:自动化寻找性能与效率的最佳平衡点

将模型的激活比例稳定控制在预设目标值(例如20%)附近,是一项技术挑战。DECO设计了一套自适应稀疏度正则化机制来实现这一精准调控。

正则化本质上是一种对模型行为的“约束”或“惩罚”。DECO使用“路由器熵”作为惩罚指标,该指标度量了路由决策的分散程度。激活的专家越多,路由分布越均匀,熵值就越高。通过对高熵状态施加惩罚,模型被引导趋向于更稀疏(激活专家更少)的激活模式。

创新的核心在于,这个惩罚的强度是动态、自适应调整的。规则直观而有效:如果当前批次的平均激活比例高于目标值,系统就自动小幅增强惩罚力度;如果低于目标值,则自动小幅减弱惩罚。这个过程在每一次训练迭代后自动执行,就像一个智能恒温器,持续地将激活比例调节并稳定在目标值附近,全程无需人工干预调参,也有效避免了因惩罚强度设置不当导致的训练崩溃或效率低下问题。

四、性能验证:DECO在多项测试中表现如何?

研究团队在四个不同的参数规模(Small约1.1亿,Medium约2.4亿,Large约5.3亿,XLarge约11.8亿)上进行了系统性评估,对比基线包括标准密集Transformer、采用Top-P路由的MoE、DeepSeek-V3风格的MoE等多种主流架构。所有对比均在总参数量和训练数据量完全相同的公平条件下进行。

评估涵盖两大方面:语言建模能力(以困惑度PPL衡量)和常识推理能力(七项常用基准测试的平均准确率)。结果显示,在所有四个规模上,DECO的困惑度均低于或持平于密集模型,下游任务准确率也达到或实现了超越。以Medium规模为例,DECO在两项核心指标上均略微领先于密集模型。更具说服力的是,在仅激活约20%参数的情况下,DECO全面超越了其他使用相同激活比例和参数总量的MoE基线模型。

研究还深入探索了关键超参数的影响规律:

  • 激活比例:模型性能随激活比例提高呈单调上升趋势,但不同规模的模型达到与密集模型相当性能所需的“临界”比例不同。Small模型约需15%,而Medium模型仅需约10%。这暗示随着模型规模进一步扩大,实现可比性能所需的激活比例有望继续降低。
  • 共享专家大小:当共享专家的参数量是单个路由专家的1到2倍时,模型性能达到最佳。过大的共享专家(如3到4倍)反而会因挤占路由专家的数量与多样性,导致整体性能下降。
  • 专家粒度:更细的专家粒度(即专家更小、总数更多)通常能带来更好的性能,这一趋势在中大规模模型上表现得更为明显。

五、从理论优势到实际加速:硬件层面的性能提升

理论上的计算节省能否转化为真实的推理速度提升?为此,研究团队为DECO架构开发了定制的推理加速计算内核,并在两款具有代表性的硬件平台上进行了测试:高性能桌面显卡RTX 4090和面向边缘计算的Jetson AGX开发套件。

结果令人振奋。在RTX 4090上,经过深度优化的DECO解码速度达到了每秒224.63个token,是未优化基准速度的2.58倍。在更贴近真实边缘部署场景的Jetson AGX上,加速效果更为显著:推理速度从基准的14.77 token/秒大幅提升至44.32 token/秒,加速比达到约3倍。这有力证明了DECO不仅在算法层面节省了计算量,更能通过软硬件协同优化,实质性地提升边缘设备上的大模型推理速度。

六、理论洞察:为何稀疏MoE有望追平密集模型?

研究团队在讨论部分提出了一个富有启发性的观点。传统观念认为密集模型“充分”利用了所有参数,但近期多项研究(包括该团队的早期工作)揭示,对于使用SwiGLU等激活函数的标准密集模型,在处理每个输入时,真正做出显著贡献的神经元通常仅占总数量的30%到40%,其余大部分神经元的激活值接近于零,处于“静默”或“待机”状态。

从这个视角看,密集模型本身已经是一种隐式的、固化的稀疏MoE系统。既然它实际工作的有效参数也只有一小部分,那么一个经过精心设计、能够精准动态激活同等比例参数的显式稀疏MoE,理论上完全有潜力用相同的参数总量实现同等的功能。DECO架构正是朝着“更精准、更高效的激活”这一目标迈出的关键一步。

另一个有趣的发现是,DECO实现“密集可比性”的能力在一定程度上依赖于训练数据的多样性。在使用混合了代码、数学、百科、对话等多种类型的数据集时,DECO在各个规模上都能达到或超越密集模型;而在相对单一的网页文本数据集上,小规模DECO的困惑度会略逊于密集模型(尽管其在下游任务准确率上仍能持平)。这似乎表明,多样化的数据分布更能激发稀疏MoE“按领域分工协作”的架构优势。

总而言之,DECO的核心贡献可以概括为:在不增加模型“参数总量”(藏书总量)的前提下,通过一套更智能的“专家分工与调度”制度(图书馆智能管理系统),使其服务效率与质量追平了需要“翻阅所有书架”的传统密集模式。

这项研究最直接的应用前景在于,它使得未来手机等终端设备上的本地AI助手,在无需占用庞大存储空间的前提下,具备与当今强大云端模型相媲美的理解与生成能力,同时响应速度还能获得数倍提升,这已不再是遥不可及的愿景。研究团队透露,已在着手开发产品级的、可直接部署于边缘端的DECO模型,并积极探索其在监督微调、人类反馈强化学习等后续阶段的适配优化方案。

当然,一些开放性问题仍有待探索:当模型规模扩展至百亿乃至千亿参数时,DECO实现性能可比性所需的最低激活比例会下降至何种水平?在不同语言、不同专业领域的数据分布下,其架构优势的普适性如何?这些问题的答案,有望在不久的将来随着更多研究的深入而逐步揭晓。

常见问题解答 (Q&A)

Q1:DECO模型与普通MoE模型的核心区别是什么?为何说它更适合手机等边缘设备部署?

A:普通MoE模型虽然通过稀疏激活降低了单次计算量,但其模型总参数量通常是同等能力密集模型的好几倍,这对手机有限的存储空间构成了巨大压力。DECO架构的关键突破在于,它在总参数量与密集模型保持完全一致的严格条件下实现了稀疏激活,因此不会额外增加存储负担。同时,其配套的专用硬件加速内核在Jetson AGX这类边缘计算设备上实现了约3倍的推理速度提升,真正在存储占用、推理速度和模型性能三者间取得了卓越平衡。

Q2:NormSiLU是什么?为什么标准的SiLU激活函数在DECO架构中直接使用会存在问题?

A:NormSiLU是DECO为专家模块专门设计的增强型激活函数,它在标准SiLU函数之前增加了两步关键的归一化处理。研究发现,直接将标准SiLU与ReLU路由机制结合会导致两个突出问题:一是训练初期被激活的专家比例极易失控飙升,需要施加极强的正则化惩罚来压制,而这会损害模型的学习能力;二是专家模块的输出幅度会在训练过程中衰减至接近零,导致即使被路由选中也几乎不做贡献。NormSiLU通过引入专家间均值归一化和专家内RMS归一化,同步解决了训练稳定性和专家输出有效性的问题。

Q3:DECO是如何自动控制模型激活比例的?是否需要复杂的人工调参?

A:DECO采用了一套全自动的自适应稀疏度正则化机制。系统在训练过程中持续监控实际的平均激活比例,并将其与预设的目标值(例如20%)进行比较。若当前比例高于目标,则自动小幅增强对“路由器熵”的惩罚力度;若低于目标,则自动小幅减弱惩罚。这一调节过程在每一次训练迭代后自动执行,确保模型的激活比例在整个训练周期中能够自动、平稳地收敛并稳定在目标值附近,完全无需研究人员进行繁琐的手动调参。

来源:https://www.techwalker.com/2026/0515/3187124.shtml
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

清华DECO架构破解边缘AI难题 手机大模型实现高效能低功耗
AI
清华DECO架构破解边缘AI难题 手机大模型实现高效能低功耗

清华大学团队提出DECO架构,解决边缘设备运行AI大模型的难题。该架构在参数和训练数据与密集模型相同的条件下,通过稀疏激活机制实现同等或更优性能,采用可微分ReLU路由、NormSiLU激活函数和自适应稀疏度控制,显著降低计算量且不增加存储负担。实验显示,其在多项任务中达到或超越密集模型,并在。

热心网友
05.15
华为Pura 90疑似真机首曝:直角边框与侧边指纹,4月见
网络安全
华为Pura 90疑似真机首曝:直角边框与侧边指纹,4月见

华为Pura系列的迭代速度,可能比很多人想象中要快!华为Pura 80 Ultra去年6月发布,搭载了行业首创的一镜双目双焦段切换式长焦,在影像圈里刷了一波存在感,对于喜欢拍照的用户来说,吸引力十足

热心网友
03.26
iQOO 15 Ultra发布:5699元起,专为极致玩家打造
手机教程
iQOO 15 Ultra发布:5699元起,专为极致玩家打造

2026 年 2 月 4 日,iQOO 在北京举办了面向「极致玩家」的新品发布会,发布了首款性能 Ultra 手机——iQOO 15 Ultra。雷科技作为受邀媒体,线上参加了此次发布会。作为「首款

热心网友
02.04
iQOO 15 Ultra开箱评测:双肩键与散热风扇助你游戏拉满
手机教程
iQOO 15 Ultra开箱评测:双肩键与散热风扇助你游戏拉满

今晚,iQOO举办新品发布活动,正式带来了全新的iQOO 15 Ultra手机。iQOO 15 Ultra(下方视频,点击观看)采用透明未来舱 DECO 设计,搭配 Monster Halo 呼吸灯

热心网友
02.04
iQOO 15 Ultra发布:首发骁龙8 Elite Gen5,5499元起售
科技数码
iQOO 15 Ultra发布:首发骁龙8 Elite Gen5,5499元起售

IT之家 2 月 4 日消息,iQOO 15 Ultra 手机今晚正式发布,售价 5499 元起,国补到手价 4999 元起。16GB + 256GB 零售价 5699 元,首销优惠价(2 月 12

热心网友
02.04

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

华硕ROG枪神魔霸新锐2026游戏本预约开启
科技数码
华硕ROG枪神魔霸新锐2026游戏本预约开启

华硕ROG正式发布2026款枪神、魔霸及魔霸新锐系列游戏本并开启预约。枪神系列分为标准版与超竞版,均搭载酷睿Ultra9处理器,超竞版可选RTX5090显卡并配备光显矩阵屏。魔霸系列采用AMD锐龙处理器,高配可选锐龙99955HX3D与RTX5070Ti显卡。魔霸新锐系列主打性价比,配备RTX5060显卡,面向预算有限的玩家。

热心网友
05.15
锐龙5 9600X单通道内存电竞性能实测 依然轻松胜出
科技数码
锐龙5 9600X单通道内存电竞性能实测 依然轻松胜出

内存价格高企,单通道DDR5成为高性价比装机方案,但会降低游戏性能。测试显示,锐龙59600X凭借Zen5大核架构及对内存低延迟的优化,在搭配单条DDR56000内存时,游戏性能损失较小。相比之下,酷睿Ultra200SPLUS系列更依赖高带宽,单通道下性能下滑明显。在多款热门电竞网游实测中,锐龙59600X性能领先,且整机性价比优势显著。

热心网友
05.15
神牛ML40摄影灯内置锂电池版发布 售价568元起
科技数码
神牛ML40摄影灯内置锂电池版发布 售价568元起

神牛发布ML40系列摄影灯,包含ML40Bi和ML40R两款。ML40Bi售价568元,内置锂电池,支持边充边用及NFC快速连接,侧重便携智能。ML40R售价698元,具备更广色温调节范围,侧重专业色彩控制。两者均采用磁吸设计,兼容丰富附件,满足不同布光需求。

热心网友
05.15
华硕850W氮化镓电源白金重炮手849元入手
科技数码
华硕850W氮化镓电源白金重炮手849元入手

华硕TUFGaming系列推出新款850W白金重炮手氮化镓电源,到手价849元。该电源符合ATX3 1规范,长度150mm,采用全模组设计,配备12V-2×6接口支持600W峰值功率。其获得双白金效率认证与A-噪声认证,内部使用氮化镓元件与长寿电容,搭配135mm静音风扇,并提供8年质保,主打高效、安静与持久稳定。

热心网友
05.15
Falcon USD是什么币?USDF稳定币市值排名与投资价值解析
web3.0
Falcon USD是什么币?USDF稳定币市值排名与投资价值解析

FalconUSD(USDF)是一种与美元挂钩的稳定币,旨在为Web3生态系统提供可靠的交易媒介和价值储存工具。其运作依赖于储备资产支持和透明审计机制,在DeFi、跨境支付等场景有应用潜力。了解其技术原理、市场定位及潜在风险,有助于理性评估这一新兴数字资产的价值与前景。

热心网友
05.15