游乐游手机版
首页/AI热点日报/热点详情

英伟达推理突破:从云端到边缘的智能互动对话AI

类型:热点整理2026-07-03
NVIDIA今日正式推出第八代AI推理软件TensorRT 8。这一新版本的最大亮点在于,它将语言查询的推理时间缩短了一半——精确地说,减少50%。这意味着开发者能够在从云端到边缘的整个链条上,构建性能卓越的搜索引擎、智能广告推荐系统和聊天机器人。 具体而言,TensorRT 8在语言模型上的优化效

NVIDIA今日正式推出第八代AI推理软件TensorRT 8。这一新版本的最大亮点在于,它将语言查询的推理时间缩短了一半——精确地说,减少50%。这意味着开发者能够在从云端到边缘的整个链条上,构建性能卓越的搜索引擎、智能广告推荐系统和聊天机器人。

具体而言,TensorRT 8在语言模型上的优化效果极为显著:在BERT-Large上,推理延迟低至1.2毫秒。要知道,BERT-Large是全球应用最广泛的基于Transformer的模型之一。过去,企业为了支撑推理运算,往往不得不缩小模型尺寸,导致明显的精度损失。如今借助TensorRT 8,企业可以直接将模型放大一倍甚至两倍,精度也随之提升至更高水平。

NVIDIA开发者计划副总裁Greg Estes的观点具有代表性:“AI模型以指数级速度增长,全球对AI实时应用的需求也在激增。企业必须部署最先进的推理解决方案。TensorRT 8引入了多项新功能,使企业能够以前所未有的质量和响应速度为其客户提供对话式AI应用。”

从数据来看,过去五年中,医疗、汽车、金融、零售等领域的27500家企业,超过35万名开发者,累计下载TensorRT近250万次。这套软件可部署在超大规模数据中心、嵌入式设备乃至汽车产品平台上。

最新推理创新

除了针对Transformer的专项优化,TensorRT 8还通过另外两项关键技术,实现了AI推理上的突破。

第一是稀疏性。这是NVIDIA Ampere架构GPU性能提升的关键推手之一,它通过减少计算操作来加速神经网络,效率提升相当显著。

第二是量化感知训练。开发者可以在训练好的模型上使用INT8精度运行推理,且几乎不损失精度。这直接降低了计算与存储成本,使Tensor Core核心上的推理效率大幅提高。

广泛的行业支持

行业领军企业已经开始将TensorRT应用于实际业务,尤其在对话式AI及其他深度学习推理场景中。

Hugging Face是开源AI技术的领先者,客户涵盖全球多个行业的大规模AI服务提供商。他们与NVIDIA合作,推出了支撑大规模文本分析、神经搜索和对话式应用的前沿AI服务。Hugging Face产品总监Jeff Boudier表示:“我们正与NVIDIA密切合作,让最先进的模型在NVIDIA GPU上实现最佳性能。我们的加速推理API已能为基于GPU的Transformer模型带来高达100倍的速度提升。通过TensorRT 8,我们在BERT上实现了1毫秒的推理延迟。今年晚些时候我们就能把这一性能提供给客户,非常期待。”

GE医疗也在利用TensorRT加速超声波计算机视觉应用。这是早期疾病检测的关键工具——临床医生需要快速选择和评估超声图像。GE医疗心血管超声首席工程师Erik Steen说:“在Vivid Patient Care Elevated Release项目中,我们通过实施自动心脏视图检测,让医生能更快选择出分析心壁运动所需的图像。TensorRT的实时推理能力显著提升了视图检测算法的性能,同时也缩短了我们研发项目的上市时间。”

可用性

TensorRT 8目前已全面上市,免费向NVIDIA开发者计划成员提供。用户也可从TensorRT GitHub库获取最新版本的插件、解析器和样本的源代码。

来源:https://m.elecfans.com/article/1666498.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。