首页 游戏 软件 资讯 排行榜 专题
首页
电脑教程
英伟达重塑AI单用户性能:2万Tokens/秒,能耗骤降千倍

英伟达重塑AI单用户性能:2万Tokens/秒,能耗骤降千倍

热心网友
82
转载
2026-03-25

3月23日消息,如果说前几年的AI重点是训练,那么现在的重点是推理,NVIDIA上周的GTC大会上已经发布了全新的LPU芯片,就是要重塑AI推理。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

在GTC大会期间,NVIDIA首席科学家Bill Dally跟谷歌首席科学家Jeff Dean两位大神有了一番精彩的深度访谈,其中Dally就谈到了NVIDIA在做的一些研究进展。

AI推理对延迟的要求很高,Dally指出目前的瓶颈已经不是算力本身,瓶颈在通信开销上,NVIDIA正在研究片上通信的静态调度,将会彻底取消路由开销、排队和仲裁,通信速度接近光速本身。

目前的技术方案中,芯片从一角到另一角的延迟有几百纳秒之多,NVIDIA的技术方案可以做到30纳秒。

片外通信中,之前的方案是一步步提高带宽速率,现在做到了400Gbps甚至800Gbps,但这样的带宽也带来了复杂的信号处理及纠错机制,但速度如果从400Gbps降低到200Gbps,复杂问题反而会消失,只做序列化延迟的话,几个时钟周期就能完成。

Dally表示他有信心未来AI推理可以做到单用户每秒10000到20000Token的推理速度——作为对比,大家要知道目前很多人用在大模型AI推理速度,普遍在100Token每秒以内,甚至每秒60Token以上的速度就算高速了。

NVIDIA要重塑AI:单用户速度可达2万Token每秒、能耗降1000倍

Dally表示做到这样的速度前提是用对了架构,他还以NVFP4精度做了例子对比,用这种精度做一次乘加运算需要消耗10飞焦的能量,但HBM4从外部读取数据大约消耗15皮焦能量,差距是1000倍以上。

改用SRAM缓存的话,读取数据的能耗也会变成10飞焦了,跟计算过程的消耗一个级别。

不过SRAM也不是没代价的,芯片成本比HBM还会高的,GTC大会上NVIDIA发布的LPU芯片LPU30也只能集成500MB SRAM缓存,跟GPU集成的288GB HBM4不是一个量级的。

NVIDIA要重塑AI:单用户速度可达2万Token每秒、能耗降1000倍

来源:https://m.mydrivers.com/newsview/1111093.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

存储芯片价格暴跌,美韩芯片垄断谋略破灭与中国芯片崛起
科技数码
存储芯片价格暴跌,美韩芯片垄断谋略破灭与中国芯片崛起

随着内存芯片价格短时间内暴跌近三成,证明美韩芯片联手拉抬存储芯片价格的图谋已经破灭,这主要得益于市场的力量,以及中国存储芯片的崛起,让美韩芯片试图联手收割一波的计划就此被遏制。2025年内存芯片一年

热心网友
03.30
GTX 590双核显卡评测:15年性能回顾,365W功耗对比HD 6990
电脑教程
GTX 590双核显卡评测:15年性能回顾,365W功耗对比HD 6990

3月29日消息,NVIDIA GTX 590迎来发布15周年,德国硬件媒体ComputerBase发布了一篇回顾文章,重新审视这款2011年3月发布的双芯旗舰显卡。GTX 590是NVIDIA对AM

热心网友
03.29
英伟达发布596.02专项驱动,修复《明日方舟:终末地》游戏卡顿
娱乐
英伟达发布596.02专项驱动,修复《明日方舟:终末地》游戏卡顿

IT之家 3 月 26 日消息,英伟达昨日(3 月 25 日)发布 GeForce 596 02 版本热修复显卡驱动,专门修复《明日方舟:终末地》游戏画面卡顿问题。IT之家注:在发布节奏方面,英伟达

热心网友
03.29
黄仁勋:台积电两项世界级特质 构筑其不可替代的护城河
业界动态
黄仁勋:台积电两项世界级特质 构筑其不可替代的护城河

3月29日消息,NVIDIA CEO黄仁勋近日在接受科技节目专访时,对台积电给出高度评价,称其凭借先进技术与客户导向两大核心优势,成为支撑全球AI需求快速转化为实际产能的关键力量。黄仁勋强调,台积电

热心网友
03.29
极氪007 GT现款在售,全新版升900V平台Thor芯片下半年上市
编程语言
极氪007 GT现款在售,全新版升900V平台Thor芯片下半年上市

网易汽车3月28日报道 日前, 我们从相关渠道获悉,极氪007(参数丨图片)GT现款车型已全面售罄。焕新版极氪007GT将于二季度正式上市,新车将升级至900V高压架构,并搭载算力更

热心网友
03.29

最新APP

史莱姆农场
史莱姆农场
休闲益智 03-31
凡人传说
凡人传说
角色扮演 03-30
恶魔秘境
恶魔秘境
角色扮演 03-29
猫和老鼠华为
猫和老鼠华为
休闲益智 03-29
暗黑之地
暗黑之地
角色扮演 03-28

热门推荐

OPPO Find X9 Ultra联名哈苏影像 4月21日重磅发布
网络安全
OPPO Find X9 Ultra联名哈苏影像 4月21日重磅发布

PChome 3月31日消息,OPPO官微官宣,OPPOx哈苏影像新品联合发布会将于4月21日晚19:00在成都举办,Find X9s Pro、Find X9 Ultra等新品将至。据了解,OPPO

热心网友
03.31
2026最新小红书官网登录入口与PC端访问地址
电脑教程
2026最新小红书官网登录入口与PC端访问地址

小红书网页版登录入口为https: www xiaohongshu com explore,支持扫码、手机号验证码及微信三种登录方式,首页默认瀑布流展示热门笔记,具备多维度内容检

热心网友
03.31
举证难与盗声困境:AI模仿维权路径指南
科技数码
举证难与盗声困境:AI模仿维权路径指南

两年前,谢添天发现自己的声音被一款APP“盗”走——用户输入文本,即可用他的音色生成以假乱真的AI声音。维权半年,因举证难度太高,最终以和解和对方致歉了结。两年后,一场大规模的联合发声,将AI盗声侵

热心网友
03.31
数字智能赋能正能量:网络媒体论坛探讨三个治理方向
科技数码
数字智能赋能正能量:网络媒体论坛探讨三个治理方向

来源:央广网3月28日至29日,以“发挥主流媒体引领力 激发多元主体创造力——共创繁荣网络内容生态”为主题的2026中国网络媒体论坛在河南郑州举行。网络媒体因技术而诞生,凭创新而繁荣。面对新一轮科技

热心网友
03.31
AI驱动CRM升级:企业级智能解决方案重塑付费模式
科技数码
AI驱动CRM升级:企业级智能解决方案重塑付费模式

当大语言模型与AgenticAI(智能体)从试验场进入企业级生产环境,SaaS行业的底层价值逻辑正面临系统性重估。这一轮变革的核心,正指向“AI CRM 2 0”的全面到来——它不再是传统CRM的功

热心网友
03.31