首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
百度智能云王怡鹏:国产AI芯片靠模型覆盖与集群能力突围

百度智能云王怡鹏:国产AI芯片靠模型覆盖与集群能力突围

热心网友
42
转载
2025-12-18

编辑部 整理自 MEET2026
量子位 | 公众号 QbitAI

当国产AI芯片接连发布、估值高涨之际,一个尖锐的问题依然悬在头顶:它们真的能撑起下一代万卡集群与万亿参数模型的训练吗?

一边是市场对替代方案的迫切期待,另一边是英伟达在利润与估值上仍高歌猛进……

百度智能云AI计算首席科学家王雁鹏在量子位MEET2026智能未来大会上,基于百度昆仑芯在大规模生产环境中的实战经验指出:

评判芯片实力的标准已从单纯的算力数值,转向了能否稳定支撑从百亿到万亿参数、从稠密模型到MoE架构、从单模态到多模态的完整模型谱系训练,并能在万卡乃至更大规模集群上实现高效扩展。

在演讲中,王雁鹏系统拆解了大规模训练中集群稳定性、线性扩展与模型生态三大核心挑战的攻坚路径,并回应了行业对MoE时代硬件路径的关切。

他认为,即便是参数激增的MoE模型,“小芯片搭大集群”的路径依然可行,其关键在于极致的通信优化与系统级协同设计。



为完整呈现王雁鹏的思考,在不改变原意的基础上,量子位对演讲内容进行了整理编辑,希望能给你带来更多启发。

MEET2026智能未来大会是由量子位主办的行业峰会,近30位产业代表与会讨论。线下参会观众近1500人,线上直播观众350万+,获得了主流媒体的广泛关注与报道。

核心观点梳理
国产芯片的替代有一个渐进式的过程,昆仑芯从第一代开始已经做到了在搜索线上系统全量用推理,真正难的是在大规模训练场景。现在Scale换了一个维度,变成了模型参数的Scale和任务训练规模的Scale,由此带来了整个系统层面的Scale,映射到硬件上就有不同的size、各种形状、不同的切分策略和并行策略。当前重要发展方向是MoE,它在某种程度上延续了原有的Scaling Law,能够继续扩大参数规模,同时不增加激活参数规模。但系统层面会面临新的挑战:模型参数变得更大、输入序列变长,通信占比显著提升,占比提升意味着整个模型架构都要有变化。当前我们在百度Qianfan VL、百度蒸汽机都取得较领先的模型效果,并已经实现全栈基于昆仑芯的训练。

以下为王雁鹏演讲全文:

真正的困难在大规模训练场景里

大家好,我是来自百度智能云的王雁鹏,我很长一段时间都在负责AI基础设施建设的工作。今天想跟大家分享的内容是,我们如何在生产环境中规模化应用我们的国产芯片

最近国产芯片热度很高,很多产品陆续上市,也获得了很高估值。似乎国产芯片马上就要在大规模生产环境落地。但同时,英伟达仍然保持极高的利润率和上涨的估值,市场仍然在购买其产品。

这两个看似矛盾的现象背后,其实反映了一个事实:要真正把国产芯片用起来,难度依然非常大。不仅如此,除了英伟达之外的国际芯片供应商,也同样没有在大规模训练场景中真正跑起来。

国产替代一定是渐进式过程。大家都知道在推理场景中问题不大,例如昆仑芯从第一代起就已在搜索线上系统实现全量推理,真正困难在大规模训练场景里面。

第一大挑战:集群稳定性

大规模训练往往是上万卡的同步系统,任何一台卡中断都可能导致任务重启。

比如,在100张卡的时候有效训练时间是99%,但当1%时间因为中断浪费的话,线性扩展到一万张卡则意味着整个集群不可用了。因此,第一个要解决的便是集群稳定性问题。

在芯片层面,GPU天生是高故障率器件:晶体管数量多、算力高、功耗大,同时专注于计算导致监控能力弱,整体比CPU的故障率高出多个量级。

在这方面我们有两类经验:

1、事前精细化监控与验证:

我们必须假设芯片可能存在各种问题——运行变慢、精度异常、数据不一致等,因此需要系统级手段提前定位可能的故障,而不能依赖芯片自身的报错能力。尤其是在静默错误场景中,系统需要能够精准定位故障节点,否则训练会长期无法复现。

2、故障后的快速恢复能力:

无论故障率如何,总要避免大规模重算,因此我们构建了透明Checkpoint和快速恢复机制,尽量减少损失。

第二大挑战:让集群真正扩展起来

一个万卡集群必须实现线性扩展,否则只有千卡、两千卡的规模意义不大。

我们大致经历了三个阶段:

百卡集群上,验证技术可行性,关键在于RDMA通信技术的适配与优化。

千卡集群上,由于网络不再对等,比如我们不能把任何两个芯片或者两台机器看成在网络任何地方部署性能都一样,因此也需要做好网络亲和性调度等复杂优化。

万卡集群则是更大的挑战,面对多任务、多并行策略(PP、TP、EP 等)带来的流量竞争,必须实现芯片与网络的联合设计。



我们的核心逻辑叫:XPU驱动的any to any的通信

以XPU为核心,在通信过程中绕过CPU各种影响,直接用XPU驱动我们的网络。针对不同流量有不同优先级做整个任务的最优,经过这一点我们可以把大规模扩展做上去。

第三大挑战:模型生态与精度体系

英伟达最强的护城河并不只是硬件,而是过去十多年沉淀的模型生态:成千上万种模型变体、算子体系、框架适配,这些都让英伟达在训练精度上保持绝对稳定性。

在大模型时代,由于Transformer这套架构相对统一,国产芯片迎来了机会。

但可能很多人忽略的一点是:

现在Scale换了一个维度,变成了模型参数的Scale和任务规模的Scale。而这意味着模型参数可以有不同的规模,例如十亿、百亿、千亿,同时我们可以跑到不同硬件平台上,比如百卡、千卡、万卡,这两个维度的Scale则会带来整个系统的Scale。



不同于原来模型架构的Scale,算子映射到硬件上面会有不同的size,不同形状,不同并行的策略,这个情况下算子能不能稳定地跑出来。我们看到它会在精度和性能上都会存在挑战,尤其是精度方面的挑战。换了一个平台,甚至可能因为“算子写得不对”、“精度差一点”都可能导致两个月的训练白跑。

因此我们做了高度泛化的算子体系,针对不同的算子的size做了高强度的泛化,同时在泛化基础上还做到小规模验证精度,避免每次都使用万卡对比,从而保证大规模训练的可靠性。

MoE模型与多模态模型的新挑战

当前重要的发展方向是MoE,它能在不提升激活规模的情况下扩展模型参数,延续Scaling Law。

但MoE基础上对系统架构也带来新的挑战,模型参数变大了,输入序列变长,意味着通信占比提升了,对整个模型架构都会有改变

因此需要极致的通信优化,以及显存的协同,与计算overlap,来完成MoE系统的适配。



我们的结论是,即便是MoE模型,小芯片搭大集群的方式依然可行

多模态模型则带来另一类问题,不同的模态会带来不同的训练强度,不同模态的计算,还用原来的同构拆分方法的话会导致训练的效率非常低,典型情况下MFU可能都不到10%。



针对这个需要做异构数据均衡的调度,适配异构并行策略,使得系统能够根据我们workload动态地做并行策略。不管模型是什么样的,都能找到最优的运行策略适配模型,在这一块需要做优化。

衡量国产芯片“能否真正用起来”的标准,我们认为有两个关键维度:

模型覆盖能力:覆盖大语言模型、多模态、文生视频等完整体系。集群规模能力:从百卡到千卡再到万卡全覆盖。

目前我们在模型覆盖上基本达到主流大模型体系,在规模上已能跑万卡任务,未来还会向数万卡推进。



最近大家关注TPU,就是因为Google能够用非常优秀的Gemini证明TPU的训练能力——模型绑定硬件,硬件才能真正被接受。

同样,昆仑芯也需要绑定优秀的自研模型。

当前我们在百度Qianfan VL、百度蒸汽机都取得较领先的模型效果,并已经实现全栈基于昆仑芯的训练。未来我们会继续努力,让更先进的模型在我们昆仑芯上面全栈训练出来。

来源:https://www.163.com/dy/article/KH2FRVFG0511DSSR.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

比特币现货持有者坚定持仓 BTC价格逼近115000美元关键阻力位
web3.0
比特币现货持有者坚定持仓 BTC价格逼近115000美元关键阻力位

现货持有者坚守仓位,比特币接近115,000水平 近期比特币(BTC)价格接近$115,000水平,市场整体情绪谨慎,但现货持有者依旧坚守仓位,显示出一定的多头信心。 市场现状与资金流动 那么,当前市场的资金究竟在如何流动?分析显示,一个有趣的现象正在上演:短线资金的流入其实相当有限,市场热度并未急

热心网友
05.23
瑞波币XRP现最强看涨形态目标6美元 近期回调后走势深度解析
web3.0
瑞波币XRP现最强看涨形态目标6美元 近期回调后走势深度解析

目录 要点介绍:分析师称XRP呈现“最强看涨结构”高位清算集中于2 90美元以上区域 周四,XRP价格稳稳站在了2 80美元上方。这个位置守住了,意味着什么?意味着市场向那个经典的“杯柄形态”目标价——6美元以上——又迈进了一步。 要点介绍: 先看几个核心数据:周四XRP报收2 82美元。技术分析显

热心网友
05.23
以太坊衍生品市场企稳 交易员聚焦4500美元关键阻力位突破
web3.0
以太坊衍生品市场企稳 交易员聚焦4500美元关键阻力位突破

近期,以太坊(ETH)衍生品市场经历了短暂的闪崩,但随后价格快速企稳,交易者开始关注关键突破点——$4,500水平。 ETH衍生品市场现状 市场情绪往往在剧烈波动后显露真容。从最新的链上数据和期权、永续合约的交易情况来看,那场短暂的闪崩更像是一次压力测试——结果是,市场波动率显著下降,多空力量似乎进

热心网友
05.23
狗狗币DOGE暴涨11%交易量激增四倍 市场反弹行情能否持续
web3.0
狗狗币DOGE暴涨11%交易量激增四倍 市场反弹行情能否持续

DOGE单日暴涨11%,交易量激增四倍,市场风向变了? 最近,加密货币市场又热闹起来了。DOGE(狗狗币)上演了一出“旱地拔葱”,价格单日暴涨11%,更关键的是,成交量直接翻了四倍。这种“价量齐升”的场面,无疑给整个迷因币板块打了一针强心剂,市场情绪肉眼可见地回暖了。 DOGE价格拉升原因分析 那么

热心网友
05.23
欧易OKX官方APP下载指南 安全交易入口与安装教程
web3.0
欧易OKX官方APP下载指南 安全交易入口与安装教程

如何安全获取欧易(OKX)官方APP?一份详尽的下载与使用指南 Binance币安 欧易OKX ️ Huobi火币️ 当人们谈论“欧易易欧”时,指的往往是那个全球顶尖的数字资产交易平台——欧易(OKX)。作为业务版图庞大的行业巨头,其官方APP无疑是用户进行交易、查看行情和管理资产的核心工具。不过,

热心网友
05.23