Z+Lab开源轻量解码框架DFlash：优化预测推理效率_游乐游手机版

首页/科技数码/文章详情

Z+Lab开源轻量解码框架DFlash：优化预测推理效率

时间：2026-01-09 21:49

Z Lab 推出了开源推测解码框架 DFlash，该框架采用轻量级 Block Diffusion 模型来生成草稿序列，旨在突破自回归大语言模型在推测解码过程中因草稿生成串行化所引

Z Lab 近日开源了全新的推测解码框架 DFlash，该框架创新性地采用轻量级的 Block Diffusion 模型来并行生成草稿序列，旨在攻克自回归大语言模型在推理过程中因串行化草稿生成而导致的性能瓶颈。

DFlash 的核心突破在于，它将目标模型的隐层特征巧妙地融入到草稿生成阶段，作为上下文条件进行建模，从而实现了高质量、高效率的并行草稿预测。

Z Lab 发布开源推测解码框架 DFlash

根据最新的测试数据，DFlash 在 Qwen3-8B 模型上实现了高达 6.17 倍的无损推理加速，其解码吞吐量相比当前最优的推测解码方案 EAGLE-3 提升了近 2.5 倍。目前该项目已在 GitHub 开源，并同步发布了适配 Qwen3-4B 与 Qwen3-8B 的预训练草稿模型。相关的技术论文正在整理中，即将正式对外发布。

Z Lab 发布开源推测解码框架 DFlash

研发团队透露，DFlash 正在紧锣密鼓地接入 vLLM 推理引擎，并且已经规划好对大规模混合专家（MoE）架构模型的完整支持路线图。

项目源码已公开发布。

来源：https://www.php.cn/faq/1959199.html?uid=1246273

上一篇高通谷歌联手造车：打造统一汽车AI平台新标杆 下一篇谷歌挖走黄仁勋爱将：英伟达任命首位CMO

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容，方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

索泰杯全国AI创作大赛火热进行中以AI绘梦赢10万显卡大奖

科技数码 · 2026-07-03

索泰杯全国AI创作大赛火热进行中以AI绘梦赢10万显卡大奖

首届索泰杯全国AI创作大赛火热进行中，设立文化、科技等三大赛道，一等奖奖励RTX5080显卡，总价值超过10万元。评审团由行业专家组成，从故事感染力、创意独特性等维度评选作品。

索尼推送PS5和PS5 Pro最新固件更新26.04-13.42

科技数码 · 2026-07-03

索尼推送PS5和PS5 Pro最新固件更新26.04-13.42

索尼7月1日向PS5及PS5Pro推送系统更新26 04-13 42 00（约1 2GB），仅改进系统性能与稳定性，无新功能或界面改动。另外，“最近游玩”功能异常已持续超过两周未修复。

优派VA24G25-HJ 144Hz高刷IPS显示器上市

科技数码 · 2026-07-03

优派VA24G25-HJ 144Hz高刷IPS显示器上市

优派VA24G25-HJ显示器上市，23 8英寸1080PIPS面板，144Hz刷新率，400尼特亮度，4ms灰阶响应，支持8bit色深与98%sRGB，配备VGA及HDMI1 4接口，带升降旋转支架，补贴后低至499元。

赛睿日本限定QcK鼠标垫等高线霓虹落日款L/XXL

科技数码 · 2026-07-03

赛睿日本限定QcK鼠标垫等高线霓虹落日款L/XXL

赛睿日本推出等高线与霓虹落日两款限定QcK鼠标垫，L（450×400mm）和XXL（900×400mm）规格表面优化提升追踪精度与稳定性。7月10日发售L款含税3310日元，XXL款含税6640日元。

浪潮锐龙3迷你主机1999元双屏支持

科技数码 · 2026-07-03

浪潮锐龙3迷你主机1999元双屏支持

浪潮推出1999元迷你主机，搭载锐龙33200U，金属机身配8GB内存与256GB固态，支持双HDMI双屏输出，兼容Windows Linux，预装本地AI助手“灵犀有言Agent”，面向政企办公。