MWC上Nakul解读工业AI新思辨：具身智能连接物理世界

时间：2026-03-05 15:01

人工智能的演进重心，正从追逐参数规模的语言学习，转向对物理世界底层秩序的深刻建模——“世界模型”已成为行业共识，系统性智能正在取代单点技术突破，成为新一轮竞争的制高点。2026年，是量产验证与场景落

人工智能的演进重心，正从追逐参数规模的语言学习，转向对物理世界底层秩序的深刻建模——“世界模型”已成为行业共识，系统性智能正在取代单点技术突破，成为新一轮竞争的制高点。2026年，是量产验证与场景落地的关键窗口：产业界不再“炫技”，而是真刀真枪比拼工程化能力和场景理解能力。

作为终端侧AI的核心玩家，近年来高通打通“云-边-端”构建混合AI体系，并在CES 2026率先亮出物理AI版图和愿景：一方面，由骁龙数字底盘驱动的智能汽车，正进化为具备情境感知与隐私保护的“出行伙伴”；另一方面，高通跃龙产品组合为机器人与工业应用注入精准感知、实时处理与敏捷行动的能力，让效率在边缘侧真正释放。

而在MWC 2026，高通的工业AI和具身智能图景进一步具象化——智能正从云端真正走入物理世界，开始服务真实世界的每一处细节。

当地时间3月3日，在2026世界移动通信大会（MWC）期间，世界互联网大会在西班牙巴塞罗那举办了以“具身智能：引领人工智能发展的新范式”为主题的专题论坛。高通技术公司执行副总裁兼汽车、工业及嵌入式物联网与机器人事业群总经理Nakul Duggal受邀发表“推动工业AI与具身智能的规模化发展”的主旨演讲。他指出，全球工业生态正经历一场由AI驱动的深刻变革，核心趋势是智能能力正从云端向边缘侧深度下沉，而“具身智能”作为AI的全新发展范式，正推动智能与物理世界深度融合。

“云-边-端”协同运行模式正快速演进，边缘侧AI崛起正重构工业运行模式。Nakul指出，AI模型从单纯依赖云端处理，发展为在边缘侧具备环境感知和自主决策能力。这一转变在移动应用、固定场景、无人化应用、不同大小的终端之中已广泛实现。他以智能眼镜为例，说明如今终端已能本地运行小型模型，完成拍照、查询并反馈结果的全过程，无需经由云端，这一技术进步彻底重构了一线工作人员的工作模式，也标志着边缘侧智能部署方式的根本性变革。

他还在演讲中强调，计算机视觉正从传统形态向视觉语言模型，并进一步向视觉-语言-行动模型（VLA模型）演进。这一演进重构了系统设计逻辑，使摄像头与连接能力得以协同工作，实现对场景的完整态势感知与分析。目前，这一能力已在边缘固定摄像头、工业网关及无人机等多元场景中快速推进，且其实际落地仅在过去24个月内完成，技术发展速度远超预期。

面对边缘侧AI几乎无限的应用场景，高通的核心策略之一是构建强大的开发者生态系统。Nakul透露，过去六个月高通完成了对开源硬件平台Arduino的收购，把边缘AI技术交到全球数百万开发者手中。通过提供从硬件平台到工具链的完整支持，赋能开发者进行数据访问、模型编程与边缘部署，并利用反馈闭环持续优化模型，从而推动复杂AI应用在广泛的工业生态系统中真正落地。

谈到具身智能所带来的机遇，Nakul提出，具身智能意味着将智能深度嵌入物理世界，推动行业朝着在机器人中实现通用智能的目标迈进。他强调，生成式AI的出现是关键驱动力，使系统得以摆脱传统基于规则的束缚。尽管将具身智能应用于真实的非结构化环境仍面临高精度操作、人机协同等挑战，但AI算法的迭代速度正在加快。他借鉴Daniel Kahneman的“系统1”思维，指出未来需要构建统筹硬件（如四肢、执行器）的系统架构，并认为硬件对真实环境的接入能力是决定具身智能发展的基础。基于持续的数据采集、技能训练、针对性硬件设计，行业将迎来具身智能的新时代。

以下为演讲全文：

大家上午好！感谢各位的邀请。各位的发言非常精彩，很高兴能与在座各位同仁共聚一堂。

我们正看到，随着各行各业开始拥抱人工智能，整个工业生态系统正在经历一场巨大的变革。过去几年，当我们思考网络如何构建、产业如何发展以及解决方案如何部署时，主流路径是将智能迁移到云端，并在云端完成处理。然而，随着人工智能开始大规模部署，越来越多的行业正在重新思考：AI在日常工作中发挥的作用。正如多位同仁此前所提到的，边缘正变得越来越智能，模型能力也在不断提升，这使我们能够在多个平台上推动解决方案的落地。这一趋势几乎适用于所有垂直行业生态。

此外，我们开始看到AI在边缘侧部署的环境非常广泛。这些场景涵盖移动应用、固定场景应用，以及在许多情况下的无人化应用，当然还包括各种尺寸的终端。

当我们从更宏观的角度思考这一变化究竟意味着什么、究竟发生了哪些改变时，可以看到一个根本性的转变：随着边缘侧变得越来越智能，它正在具备环境感知能力（situational awareness），并能够在边缘侧直接做出决策，而在过去这需要依赖云端来完成。过去五年间，模型变得越来越智能，并且越来越贴合其运行的数据环境。随着模型具备更强的模式识别能力，并能够在真实世界运行中不断学习和优化，智能体正在各类应用场景中变得越来越智能。

与此同时，我们也正在看到机器到机器（machine-to-machine, M2M）应用的重大转变。过去，这类应用更多是采集数据并发送到云端处理；而现在，它们正逐渐在实现独立智能运行。除了机器之间的交互之外，随着大语言模型（LLM）的发展，当人被纳入系统闭环后，机器与人之间进行沟通和交互也变得非常直接和简单。而这一整轮转型，正在我们所处的每一个产业生态系统中展开。

在过去几年中，高通一直在一个重要领域表现突出，那就是将XR技术引入工业应用、消费应用以及商业应用生态之中。如今，人们已经可以在智能眼镜等设备上运行小型模型。例如，当你看到某个事物时，可以让眼镜拍下一张照片，并直接向设备提出问题。随后，这个查询请求可以被发送到你的手机，或同一系统中的本地设备，无需通过云端进行处理，然后再将答案返回给你。这种能力在过去是无法实现的。在与客户的交流中我们发现，这类技术进步正在彻底改变一线工作人员的工作方式，同时也在改变智能能力在边缘侧部署和应用的方式。

要让这一切真正发生，实际上需要使用全新的工具。你需要能够以新的方式处理数据——无论是结构化数据、半结构化数据，还是各种形式的非结构化数据，都必须具备处理能力。同时，还需要能够处理真实世界数据，在许多情况下还包括合成数据，并在不同场景中对数据进行很好地融合与整合。通过这些数据对模型进行训练，并进一步微调，最终将这些模型部署到实际应用中。

随着这一工具在越来越多的应用场景中运行，其能力正变得越来越强大，发展势头也在不断增强。通过这种方式，我们就有可能将人工智能真正推进到边缘侧。除了持续推出各类产品之外，我们采取的一个重要策略，是专注于构建生态系统。在过去六个月中，高通完成的一项重要收购就是Arduino。

我们意识到，当开始思考AI和边缘计算时，未来可能出现的应用场景几乎是无限的。实际上，很难提前预测或判断未来究竟会出现哪些具体应用。因此，我们采取的方法是：确保能够将技术交到数百万开发者手中。这一策略可以覆盖教育领域、商业领域以及消费领域。从硬件开发平台到开发工具链，我们为开发者提供完整的能力，使他们能够在边缘侧构建应用。

通过这样的方式，我们正在把这一整套能力整合起来，使开发者生态能够获得数据访问能力——无论是示例应用（sample apps），还是连接他们自己的数据库。同时，开发者还可以编程模型、在边缘硬件平台上部署模型，并且这一平台具有较低成本。这些模型随后可以通过反馈闭环不断训练与优化，并最终在广泛的工业生态系统中部署应用。正是通过这种方式，我们能够推动非常复杂的应用真正落地。

在这个例子中，我们可以看：计算机视觉正逐步演进到视觉语言模型，并进一步迈向视觉-语言-行动模型（VLA模型）。这一演进让我们能够以一种全新的架构方式来思考系统设计——例如摄像头与连接能力如何协同工作，从而对摄像头所看到的场景进行完整的态势感知与分析，并将这些信息实时提供给整个生态系统使用。

目前，我们正在多个应用场景中推进这类能力的发展。例如：部署在边缘侧的固定摄像头、安装在工业网关上的摄像头，以及安装在无人机上的摄像头。这些设备可以通过各种无线网络进行连接，无论是专用无线网络、公共无线网络，还是其他类型的专有或开放网络，都可以支持相关应用的运行，应用既可以结合云端能力，也可以使用本地部署的计算设备。因此，各种不同的部署模式都是可行的。而令人惊讶的是，这些能力真正变得现实，其实只是在过去大约24个月甚至更短的时间内发生的，发展速度非常快。

对我们来说，一个重要的认识是：客户正在采用的网络架构将会发生变化。正如大家刚才提到的，要让智能能力真正下沉到边缘侧，整个生态系统还需要完成大量的能力建设与协同。

我们正处在一个非常令人振奋的时代。我相信大家都会同意，“具身智能”（Embodied AI）是一个相对新的概念。我们过去并未充分认识到智能正被嵌入进物理世界，而如今，让物理实体具备智能、能够学习，并在学习过程中持续改进，已经成为一个全新的方向。我们正在朝着在机器人中实现通用智能的道路迈进。

从根本上看，生成式AI的出现带来了重要变化。它使我们能够摆脱传统基于规则的系统，转而构建能够适用于各种环境的智能系统——无论是在云端、边缘侧，还是在机器人之中——都能具备持续学习的能力。

当把这一能力应用到机器人领域时，一个非常有意思、但同时也充满挑战的问题是：机器人需要面对的环境往往并不是结构化环境。机器人并不是运行在虚拟世界中，而是运行在真实的物理世界里。因此，在很多方面仍然有大量工作需要完成，例如：如何定义机器人所处的物理环境，以及如何对机器人进行训练——尤其是在需要高精度操作、高速度响应，以及与人协同工作的场景下。

目前，我们仍处在这一转型的早期阶段。但人工智能发展的速度，以及AI算法在特定任务上不断提升精度和能力的速度，已经开始明显加快。

从高通公司的角度来看，这段发展历程其实非常有意思。我在高通负责多个业务领域，其中我们已经在ADAS驾驶辅助领域深耕多年。我们逐渐认识到，从根本上来说，驾驶辅助就是将人或货物从 A 点运输到 B 点。某种意义上，它其实是一种运输机器人。这种系统并不需要具备很高的灵活性，它主要需要做的是在遵循既定规则的前提下避开障碍物并完成路径行驶。因此，从驾驶辅助的定义来看，可以说基于规则的驾驶辅助其实已经存在了很长时间。而随着基于 Transformer 的人工智能技术开始应用，如果将这些能力引入其中，这一领域的发展正在开始加速。

但如果把这些能力进一步应用到真正的物理机器人上，就会出现许多不同之处。机器人需要面对的是精度、操作范围以及执行等问题。在这种情况下，目标不再只是从 A 点移动到 B 点，而是要真正对物体进行物理操作，并完成具体任务。

正是在这一背景下，我们发现架构层面正在发生新的变化。模型将越来越依赖于视觉、语言和行动的结合，而在此基础之上，我们还将进一步提升系统能力，使其具备物理智能。

所有这些发展也带来了一个新的问题：我们是否可以在不考虑物理硬件形态的情况下，直接为具身对象部署人工智能？我们认为，具身智能系统中的物理硬件，其实类似于大脑和神经系统。这套“神经系统”在过去并没有被我们真正视为人工智能生态系统中的一部分。因此，我们正在投入大量时间思考：未来应该构建怎样的系统架构，去统筹身体各个部分，例如四肢、双手以及各种执行启等。

在这一过程中，我们看到 Daniel Kahneman 提出的系统1（System 1）思维——也就是说，需要思考哪些能力属于类似“系统1”的能力。这些能力帮助我们更好地理解，未来系统中哪些基础能力和核心组件需要被构建。

从根本上来说，我们认为硬件本身以及不同类型的硬件，再加上硬件对数据的基础获取能力以及对机器人实际运行环境的接入能力——也就是机器人真正存在并执行任务的环境——都将成为关键基础。这些因素将决定我们如何采集任务相关的数据、训练机器人，并将任务训练逐步转化为我们所构建的技能能力。随着时间推移，通过持续的数据采集和技能训练，并结合针对具体任务设计的硬件，我们将能够推动具身智能迈向新的阶段。

我们确实生活在一个非常令人兴奋的时代。很高兴今天能在这里与大家交流，非常感谢大家的时间。

来源：https://www.163.com/dy/article/KN8U55MK05118HA4.html