首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
首个三模式大语言模型发布 4倍吞吐量开启长文本秒级响应

首个三模式大语言模型发布 4倍吞吐量开启长文本秒级响应

热心网友
69
转载
2026-05-22

大语言模型的生成速度,一直是影响用户体验的关键瓶颈。尤其是在单用户交互场景下,传统的自回归解码方式就像一位字斟句酌的作家,虽然准确,但速度上难免受限。最近,英伟达的一项研究带来了一个颇具碘伏性的思路:为什么非要二选一?他们提出了一个能同时支持三种解码模式的大语言模型系列,仅通过切换注意力模式,就能在速度与精度之间灵活取舍。

这项研究的核心,在于试图统一两大主流生成范式。传统自回归解码的准确性毋庸置疑,但其逐词生成的特性,在低并发场景下无法充分利用GPU的并行计算能力,生成速度容易遇到内存带宽的瓶颈。另一方面,扩散模型天生具备并行生成的优势,能一次性推测多个token,但过去因其在训练时平等对待所有token排列,缺乏语言模型应有的顺序先验,生成质量往往不尽如人意。

首个三模式大语言模型:4倍token吞吐量,长文本秒级时代要来了?

那么,能否打造一个模型,同时吸收两者的长处?英伟达的答案就是构建一个“三模一体”的架构。这个模型无需额外的草稿模型或复杂的架构改动,仅凭自身就能在三种模式间自由切换,其中最快的模式甚至能将token吞吐量提升高达4倍。

如何实现“三位一体”?

关键在于一种创新的训练与推理设计。在训练阶段,模型同时优化自回归损失和扩散损失,这从根本上提升了扩散语言模型的生成质量。为了稳定这一联合训练过程,研究团队采用了两阶段策略,并引入全局损失平均技术,有效缓解了因随机掩码导致的梯度不稳定问题。

经过这般训练,模型在推理时便获得了三种可随时切换的“形态”:

  • 自回归模式:即传统的逐token生成,保留完整的因果注意力,适用于高并发、计算密集的云端任务。
  • 扩散模式:采用分块去噪策略,利用双流注意力机制在块内并行推测大量token。为了最大化并行效率,团队还专门训练了一个轻量级采样器来替代传统方法。
  • 自推测模式:这是对传统推测解码的革新。它不再需要额外的小模型来起草文本,而是让模型自己扮演“起草者”和“验证者”的双重角色,利用扩散模式并行起草多个token,再用自回归模式进行验证,从而在单模型内实现高效的自我博弈。

性能表现如何?

研究团队发布了3B、8B、14B三个尺寸的基座模型。测试结果显示,新模型在保持与Qwen3-8B基线相当的自回归准确率的同时,在前向传播中平均每次能处理5.9个token。

更重要的是,其效率提升在实际部署中非常显著。以8B模型在单用户场景下的测试为例:

  • 在DGX Spark上,FP8精度下提速3.14倍,INT4精度下提速2.7倍。
  • 在RTX 6000 Pro上,FP8精度下提速3.4倍。
  • 在GB200上,可提速3.3倍;若配合定制CUDA内核,最高可实现4倍加速。

在SPEED-Bench综合基准测试中,其线性自推测机制实现了平均8.7的接受长度,远超其他同类方法。这充分证明了其在数学、代码、推理等多类任务上的高效性。

灵活适配不同场景

这种三模式设计的妙处在于其灵活性。在低至中等并发度(如个人AI助手)下,自推测模式凭借其高效率占据主导。而当面对大批量处理任务(并发流超过64个)时,计算本身成为瓶颈,此时只需将注意力掩码切换回纯自回归模式即可。这意味着,一个模型就能通吃从交互式应用到大规模批量处理的各种部署场景。

技术细节与未来展望

研究也公布了详细的训练配方:从已有的基座模型出发,先进行1万亿token的自回归持续预训练,再进行3000亿token的联合训练,最后进行有监督微调和对齐。关键技术包括全局损失平均、严格因果干净流以防止信息泄漏,以及使用LoRA增强起草器来改进自我推测。

这项研究为大模型架构的演进指出了一个新方向:或许不必纠结于选择自回归还是扩散路径,将二者深度融合在同一套Transformer框架内,才是更优解。论文最后指出了一个更令人兴奋的可能性:如果未来能开发出更完美的扩散采样器,扩散模式的理论性能上限比现有的自推测模式还要再高出76.5%。这暗示着扩散大语言模型仍蕴藏着巨大潜力,长文本“秒级生成”的时代,或许真的不远了。

来源:https://www.jiqizhixin.com/articles/2026-05-22-5
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

首个三模式大语言模型发布 4倍吞吐量开启长文本秒级响应
AI资讯
首个三模式大语言模型发布 4倍吞吐量开启长文本秒级响应

大语言模型的生成速度,一直是影响用户体验的关键瓶颈。尤其是在单用户交互场景下,传统的自回归解码方式就像一位字斟句酌的作家,虽然准确,但速度上难免受限。最近,英伟达的一项研究带来了一个颇具碘伏性的思路:为什么非要二选一?他们提出了一个能同时支持三种解码模式的大语言模型系列,仅通过切换注意力模式,就能在

热心网友
05.22
RPA非结构化数据处理中大语言模型应用方法详解
AI资讯
RPA非结构化数据处理中大语言模型应用方法详解

在探讨企业数字化转型的进程中,一个普遍存在的挑战是:真正蕴含价值的信息,往往并不存储在规整的结构化数据库里。行业研究数据显示,企业内部超过80%的数据都以非结构化的形式存在——这包括格式各异的PDF文档、法律合同、会议记录、社交媒体评论以及大量的音视频资料。传统的RPA(机器人流程自动化)在处理规则

热心网友
05.21
蚂蚁Inclusion团队发布大象多语言大模型
AI资讯
蚂蚁Inclusion团队发布大象多语言大模型

近年来,大语言模型领域涌现出众多新面孔,其中由蚂蚁集团Inclusion AI团队研发的百亿参数模型——Elephant(大象),因其卓越的效率表现,被不少用户誉为“国产版Grok 4 Fast”。它并非追求参数规模的庞然大物,而是一款专为高效解决实际问题而设计的“生产力利器”。 简单来说,Elep

热心网友
05.20
何恺明团队开源Cola DLM:连续扩散语言模型原理与应用详解
AI资讯
何恺明团队开源Cola DLM:连续扩散语言模型原理与应用详解

字节跳动开源连续扩散模型ColaDLM,将生成过程置于连续语义空间而非离散token层面。模型通过潜在先验生成语义,再由解码器转化为文字,实验显示其扩展趋势优于自回归与主流离散扩散模型。该研究旨在构建稳定语义表示,为多模态统一提供连续接口,挑战了传统语言建模对离散token的依赖。

热心网友
05.19
2026年AI推广机构如何选择正规大语言模型优化服务商
业界动态
2026年AI推广机构如何选择正规大语言模型优化服务商

2026年GEO行业快速增长,但市场乱象频发,劣质服务商以低价引流、搬运内容、无售后运维等手段损害企业利益。正规服务商需具备原创能力、可靠媒体资源与透明运维流程。企业选择时应核查资质、明确合同条款并优先考虑长期服务,以保障品牌安全与优化效果。行业健康发展需坚守合规底线。

热心网友
05.18

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

全球十大主流加密货币排名与投资价值深度解析
web3.0
全球十大主流加密货币排名与投资价值深度解析

全球主流虚拟货币格局深度解析:超越比特币的加密世界版图 当人们谈论虚拟货币时,比特币(BTC)无疑是第一个被提及的名字。作为市值第一的数字资产与区块链技术的开创者,其地位无可撼动。然而,一个充满活力的Web3生态系统远不止于此。从智能合约平台到稳定价值媒介,再到高性能公链,各类主流加密货币凭借独特的

热心网友
05.23
Solana ETP资金流入超5亿美元 CME持仓激增 SOL币价能否再创新高
web3.0
Solana ETP资金流入超5亿美元 CME持仓激增 SOL币价能否再创新高

SOL短期价格走势展望:反弹在即还是继续回调? 市场信号正变得有些微妙:一方面,SOL期货与交易所交易产品(ETP)的资金流动数据清晰地显示,机构投资者正在积极建仓;另一方面,零售端的情绪却依然维持着谨慎。那么,SOL能否迅速重返250美元以上的高位呢?问题的答案,或许就藏在这股“机构热、散户冷”的

热心网友
05.23
2025年潜力百倍币投资指南 COMP币值得买入吗
web3.0
2025年潜力百倍币投资指南 COMP币值得买入吗

Binance币安 欧易OKX ️ Huobi火币️ 时间来到2025年,币圈里关于“百倍币”的讨论,热度依然不减。这类机会向来与高风险相伴,但市场目光总会聚焦在那些具备技术突破、生态扩张或需求爆发潜力的赛道上。作为DeFi领域的早期开拓者,Compound(COMP)的表现,自然也在这轮审视之中。

热心网友
05.23
2025年币圈空投完整指南:运作原理与新手获取教学
web3.0
2025年币圈空投完整指南:运作原理与新手获取教学

加密货币领域的“空投”现象,是指项目方免费向特定用户分发数字资产的行为,通常旨在提高项目知名度、吸引新用户或奖励早期支持者。这种营销策略在近年来变得尤为流行,尤其是在去中心化金融(DeFi)和非同质化代币(NFT)领域。 简单来说,空投就是区块链世界里的“免费午餐”。但天下没有白吃的午餐,对吧?其运

热心网友
05.23
比特币价格预测:Coinbase溢价113美元揭示机构买入,BTC能否突破历史新高
web3.0
比特币价格预测:Coinbase溢价113美元揭示机构买入,BTC能否突破历史新高

近期,比特币价格在突破12万美元大关后持续高位盘整,市场目光聚焦于其下一步走向。一个关键的链上指标——Coinbase溢价指数,正释放出强烈的看涨信号,暗示以美国为首的机构资金可能正在为新一轮行情蓄力。 Coinbase溢价飙升:机构买盘强势回归的明确信号 根据权威链上数据分析平台CryptoQua

热心网友
05.23