英伟达推理突破：从云端到边缘的智能互动对话AI_AI热点日报

英伟达推理突破：从云端到边缘的智能互动对话AI

类型：热点整理2026-07-03

NVIDIA今日正式推出第八代AI推理软件TensorRT 8。这一新版本的最大亮点在于，它将语言查询的推理时间缩短了一半——精确地说，减少50%。这意味着开发者能够在从云端到边缘的整个链条上，构建性能卓越的搜索引擎、智能广告推荐系统和聊天机器人。具体而言，TensorRT 8在语言模型上的优化效

NVIDIA今日正式推出第八代AI推理软件TensorRT 8。这一新版本的最大亮点在于，它将语言查询的推理时间缩短了一半——精确地说，减少50%。这意味着开发者能够在从云端到边缘的整个链条上，构建性能卓越的搜索引擎、智能广告推荐系统和聊天机器人。

具体而言，TensorRT 8在语言模型上的优化效果极为显著：在BERT-Large上，推理延迟低至1.2毫秒。要知道，BERT-Large是全球应用最广泛的基于Transformer的模型之一。过去，企业为了支撑推理运算，往往不得不缩小模型尺寸，导致明显的精度损失。如今借助TensorRT 8，企业可以直接将模型放大一倍甚至两倍，精度也随之提升至更高水平。

NVIDIA开发者计划副总裁Greg Estes的观点具有代表性：“AI模型以指数级速度增长，全球对AI实时应用的需求也在激增。企业必须部署最先进的推理解决方案。TensorRT 8引入了多项新功能，使企业能够以前所未有的质量和响应速度为其客户提供对话式AI应用。”

从数据来看，过去五年中，医疗、汽车、金融、零售等领域的27500家企业，超过35万名开发者，累计下载TensorRT近250万次。这套软件可部署在超大规模数据中心、嵌入式设备乃至汽车产品平台上。

广泛的行业支持

行业领军企业已经开始将TensorRT应用于实际业务，尤其在对话式AI及其他深度学习推理场景中。

Hugging Face是开源AI技术的领先者，客户涵盖全球多个行业的大规模AI服务提供商。他们与NVIDIA合作，推出了支撑大规模文本分析、神经搜索和对话式应用的前沿AI服务。Hugging Face产品总监Jeff Boudier表示：“我们正与NVIDIA密切合作，让最先进的模型在NVIDIA GPU上实现最佳性能。我们的加速推理API已能为基于GPU的Transformer模型带来高达100倍的速度提升。通过TensorRT 8，我们在BERT上实现了1毫秒的推理延迟。今年晚些时候我们就能把这一性能提供给客户，非常期待。”

GE医疗也在利用TensorRT加速超声波计算机视觉应用。这是早期疾病检测的关键工具——临床医生需要快速选择和评估超声图像。GE医疗心血管超声首席工程师Erik Steen说：“在Vivid Patient Care Elevated Release项目中，我们通过实施自动心脏视图检测，让医生能更快选择出分析心壁运动所需的图像。TensorRT的实时推理能力显著提升了视图检测算法的性能，同时也缩短了我们研发项目的上市时间。”

可用性

TensorRT 8目前已全面上市，免费向NVIDIA开发者计划成员提供。用户也可从TensorRT GitHub库获取最新版本的插件、解析器和样本的源代码。

来源：https://m.elecfans.com/article/1666498.html

ai NVIDIA

延伸阅读

补充最近整理过的热点入口。