首页 游戏 软件 资讯 排行榜 专题
首页
AI
端侧AI模型发展现状与未来趋势深度解析

端侧AI模型发展现状与未来趋势深度解析

热心网友
85
转载
2026-05-16

自2023年起,科技领域的两股核心驱动力变得格外清晰:一边是以大模型为代表的人工智能,另一边则是以具身智能为核心的机器人技术。将两者结合,用AI算法特别是大模型来提升机器人的智能水平,已成为一个顺理成章的趋势。于是,“机器人学习”与“具身大脑”成了行业里热度最高的词汇。

不过,业内对于“具身大脑”的定义并不统一。一个更宽泛的理解是,凡是利用人工智能算法与机器人结合,旨在提升机器人在交互、感知或控制方面能力的,都可以归入这个范畴。从技术源头看,国内专注于机器人模型的厂商大致可以分为几类:有从视觉感知切入的,如穹彻智能、有鹿、若愚科技;有专注于强化学习路径的,例如Physical Intelligence;还有从语言模型出发,拓展到机器人领域的,比如面壁智能、岩芯数智、自变量等。

在如何打造“机器人大脑”这个问题上,不同技术流派路径各异,观点也不尽相同。但过去一年的行业实践揭示了一个有趣的现象:那些出身于研究基础模型的大模型厂商,在向机器人领域落地时,反而显得最为焦虑。

除了市场竞争激烈,一个更本质的困境在于:端侧模型想在机器人上真正用起来,中间还横亘着一道芯片开发的鸿沟。于是,机器人厂商、大模型公司和芯片企业之间,形成了一种微妙的三角拉力关系。

目前看来,这个三角关系似乎陷入了一个负向循环:

首先,端侧模型需要适配专门的芯片,但芯片的研发迭代高度依赖市场规模。当前机器人仍属专业级产品,远未像手机、PC那样走入寻常百姓家,出货量有限,导致专为机器人优化的高性能、低功耗芯片迟迟难以面世。

其次,机器人消费市场的扩大,核心驱动力在于智能水平的飞跃,而这又依赖于AI模型的快速迭代。但模型的进化需要海量、高质量的真实世界交互数据,这反过来又要求模型必须大规模部署在机器人产品上,与用户产生持续互动。

最终,现实很骨感。目前具身视觉语言模型的实际效果,距离消费级产品所需的精度和准确率还有不小差距。机器人智能迭代放缓,出货量难以起色,又进一步影响了芯片的研发投入和成本下降。三者相互牵制,形成了一个“先有鸡还是先有蛋”的经典困局。要打破这个僵局,走入正向增强循环,必须有一方率先取得突破。

那么,破局者会是谁?模型厂商期待芯片厂商能拿出革命性的产品,芯片厂商则希望机器人市场能先爆发以支撑研发,而机器人厂商或许又在等待一个足够智能、能引爆需求的模型出现。

大模型能为机器人做什么?

理想中,大模型在机器人领域扮演的是“大脑”角色,核心价值在于提供强大的泛化能力和复杂任务规划能力。但在当前落地的具体操作中,大模型的作用更多还停留在相对初级的阶段,比如帮助机器人理解并拆解简单的自然语言指令。

具体来看,现状有两个特点:一是机器人大多仍在执行单个、预设的任务,交互层面的进步多于真正的“学习”能力,实现多模态协同任务仍是挑战;二是机器人完成的多数是短期动作(如叠衣服、按下按钮),很少涉及需要大模型进行长链条、上百步规划的复杂任务。

例如,面壁智能的目标就是让机器人能完成更复杂、步骤更长的操作,并提升执行准确率、泛化性和纠错能力。这需要长程规划、工具调用、多模型协同等全方位能力,而这正是大模型厂商的优势所在。相比之下,机器人公司在算法层面的积累可能不如前者深厚,因此通过合作引入专业的端侧模型,成为了一条高效路径。

在泛化性方面,大模型所蕴含的世界知识和常识,本应能极大帮助机器人应对未曾见过的物体或场景。但前沿进展显示,这部分仍处于早期探索阶段。例如,RockAI的Yan架构大模型,其技术路线是将文本、语音、视频及机体参数进行整体对齐后输入模型。而一些视觉语言模型则试图通过提升物理建模能力来增强泛化性,比如让机器人理解物体的重量、操纵新物体。不过业内普遍认为,这些模型的实际效果距离消费级应用的要求尚有距离。

总体而言,大模型的许多潜力在机器人侧尚未完全释放。无论是泛化、规划还是纠错能力,其应用都还比较初步。此前,字节跳动的GR-2通用机器人曾尝试将文生视频能力融入其策略模型,但在让机器人执行具体任务方面,依然在摸索之中。

字节 GR-2 通用机器人

大模型能力未能充分发挥的背后,首要原因是行业尚未找到最适合机器人的统一模型架构。当前有的工作基于多模态大模型,有的基于Diffusion Policy,也有尝试将两者结合分别负责“大脑”和“小脑”的,但远未像自然语言处理领域那样形成类似Transformer的统治性架构。

此外,机器人形态的多样性也带来了挑战。双足、轮式、四足机器人,其运动和控制方式差异巨大。在大脑层面,“向前走”的指令可以统一,但底层的精细控制算法则完全不同。这意味着,并不存在某种“最优”机器人形态能天然加速大模型的设备泛化。目前,“大脑派”与“肢体派”仍在相互磨合,努力打通知识壁垒。

除了架构和形态,最大的难点莫过于数据。模型厂商很难获取到大规模、多元化的机器人交互数据(涵盖视觉、语言、触觉、力控等)。数据匮乏导致训练只能“case by case”,严重限制了模型执行任务的泛化能力,更不用说探索更复杂的场景了。

一个典型的例子是灵巧手操控。要让大模型精准控制五指灵巧手抓取物体,不仅需要输出目标物的三维坐标,还需精确控制每个手指的抓握点位。从视觉感知到坐标判断,再到精细操控,这一流程理论上可行,但以现有模型水平还难以实现。正如RockAI CMO邹佳思所言,目前手部的精细控制仍多交由机器人厂商的底层控制器(“小脑”)处理,大模型核心解决的是对模糊指令的理解问题。

过去指挥机器人需要极其精确的指令,且很多是预先写死的代码。今年世界人工智能大会上一些机器人的直播“翻车”,根本原因就在于它们无法理解人类的自然语言。而端侧模型的价值,正是为了提升机器人对自然语言的理解能力。

“机器人大脑”的三角关系

数据不足的根源,又绕回了机器人尚未实现大规模量产,未能从专业设备转变为消费级产品这个老问题。

回顾特斯拉自动驾驶的演进历程,其最初并非依靠自动驾驶功能吸引用户,而是凭借车辆本身的性能。随着用户基数扩大,产生的海量数据才得以反哺自动驾驶模型的训练,形成正向循环。反观机器人,当前的主要购买者仍是研究机构和特定行业客户,且常常是先订单后生产,真实、多元的用户交互场景严重匮乏。

有业内人士曾指出,破局的关键或许在于能否率先标注出高质量的“第一版”数据。但这谈何容易。机器人数据采集无法像训练文本大模型那样从互联网抓取,必须依靠真机在真实环境中收集,再经过昂贵且繁琐的标注流程,涉及触觉、力反馈等多模态信息,成本极高。

训练方式上也存在挑战。机器人训练依赖真实或高保真仿真环境,在强化学习、系统稳定性等方面的成本远超传统AI模型。目前,学术界和工业界都在积极探索更高效的训练方法。仿真数据虽能部分解决问题,但其真实性始终不及真机数据,要想适配各种设备和场景,需要极高的多样性。

除了数据,算力是另一个关键瓶颈。国内主流大模型厂商虽已开始布局“端侧小模型”,但重心仍在千亿甚至万亿参数的云端大模型上。这些庞然大物需要巨大的算力支持,而机器人搭载的板卡算力通常非常有限。若强行部署,会导致成本、功耗和散热问题难以解决,即便最新的消费级芯片也力有未逮。

因此,云端大模型难以在机器人本体上离线部署,这也正是面壁智能、RockAI等专注于端侧模型的厂商存在的市场空间。如果采用联网调用云端模型的方式,又会引入无法接受的执行延迟。有案例显示,某国产机器人在调用云端模型执行取水任务时,就曾深受延迟困扰。

当然,业内也有观点认为,端侧3B参数规模的模型,在图像理解、自然语言交互等基础能力上,已能满足机器人当前大部分的智能需求。虽然其任务泛化能力不及云端大模型,但提供了一个可行的折中方案。

此外,机器人本体的构型差异并非模型研发的主要障碍。模型厂商更关注两个因素:一是算力环境(如机器人使用的是英伟达Orin、Intel还是ARM芯片),模型需要针对不同芯片进行适配;二是机器人肢体参数(如身高、臂展、关节活动范围),模型指令需与之匹配。这种适配成本通常不高,真正的挑战在于芯片适配。

对于模型厂商,机器人的各类传感器信息和本体参数,都可视作输入的“模态”。只要输入模态不同,就需要进行适配。当前最大的适配成本来自芯片。受限于端侧算力,模型向“极大”和“极小”两个方向发展都困难重重:往大了做,需要天价的资金投入和万卡集群;往小了做,要在手机、机器人等资源受限的终端上高效运行,对模型压缩和优化工程提出了极高要求。

许多从业者对机器人端侧算力的未来持乐观态度,认为其选择空间比手机更大,随着芯片进步,未来千亿模型在端侧落地也非天方夜谭。但现实是,机器人厂商出于续航考虑,普遍倾向于采用低功耗芯片。目前很多机器人仍在使用骁龙6系列芯片,这类芯片出货量巨大,成本低廉,但算力有限。

一个残酷的现实是,人形机器人脱离电源后通常只能工作约一小时,如果搭载高算力GPU板卡,续航可能骤降至20分钟。然而,让端侧模型在低功耗CPU上流畅运行极为困难。以Transformer架构的3B模型为例,在骁龙7系列芯片上几乎无法运行,在骁龙8系列上也需要经过大幅量化和压缩,而这往往会导致模型性能,尤其是多模态能力显著下降。

因此,模型厂商必须在能力、功耗和成本之间艰难权衡。推理优化水平成为关键——能否将模型压缩得足够小、足够快,同时在量化后仍保持可用的性能。有机器人领域从业者透露,这正是许多大模型基座厂商的痛点,也是RockAI、面壁智能等厂商的机会所在。

即便机器人厂商愿意采用高算力芯片,成本问题依然突出。参考手机行业,搭载高端芯片的产品售价不菲。若机器人再叠加高端模型,价格可能令人望而却步,从而限制市场增长。高端芯片要成为市场主流,仍需数年时间。

更有观点指出,当前行业的首要瓶颈可能还不是模型或数据,而是机器人本体自身的成熟度。在硬件本体达到足够的稳定性、可靠性和场景适应能力之前,谈论高级智能或许为时尚早。

如何跳出“死循环”?

显然,机器人大模型的前进不能只靠模型厂商单打独斗,需要机器人厂商、芯片厂商三方合力,共同凿开一条出路。

目前,一些解决方案已经浮现。例如,以智源、智谱为代表的机构提出了“端云协同”的路径:在云端训练大模型,通过知识蒸馏、量化等技术得到轻量化的小模型,再部署到终端。理想汽车已在英伟达板卡上成功部署2B模型,便是例证。这种方式能在保持一定能力的前提下,实现更高效的部署。

另一些厂商,如RockAI,则探索非Transformer架构,使其能在纯CPU或低端混合芯片上运行,以降低算力需求和功耗。由于芯片迭代周期长,存量市场(即基于现有算力满足需求)显得尤为重要。邹佳思表示,其团队已与高通、联发科、英特尔、ARM、华&为等多款芯片完成适配,这正是为了服务那些不愿或不能等待新一代芯片的机器人厂商。

所谓芯片适配,是一项深度优化工作,需要模型厂商与芯片厂商紧密协作,针对特定芯片的计算单元特点,对模型推理框架进行定制化优化,以充分释放硬件算力。

也有观点认为,当前许多端侧模型无法落地,问题不全在硬件或需求,而在于大模型技术本身尚未成熟到能支撑广阔市场的地步。不过,有些任务确实需要芯片突破后才能实现,例如对实时视频流的理解和动作捕捉。现有芯片性能难以让机器人流畅分析连续动作,只能处理单张图片,这限制了其对动态场景的理解。

因此,芯片厂商实现高算力、低功耗的突破至关重要。同时,电池技术的进步以延长续航也不可或缺。但遗憾的是,由于当前机器人市场规模太小,电池厂商缺乏投入研发的动力。有从业者透露,年出货几百台已是行业翘楚,但这个量级对电池巨头而言毫无吸引力。

最终,打破僵局的核心或许还是在于机器人本体能否取得突破,实现更高的稳定性、更广泛的场景适应能力,从而提升出货量。一旦年出货量能达到成千上万的规模,整个产业链的注意力与资源自然会向此倾斜。

值得注意的是,在手机和PC端,端侧模型的竞争已日趋白热化,且头部厂商正走向自研。例如,vivo的云端模型可能基于第三方,但其本地端侧模型已是自研。这对机器人领域是一个启示,也意味着机会:机器人对拟人化交互(语音、视觉)的核心诉求,与手机专注于系统应用打通的需求不同,这为专注机器人场景的模型厂商留下了创业空间。

长远来看,模型、芯片、机器人三方都仍有很长的路要走。面对量产不足、芯片制约、数据匮乏导致的智能提升缓慢这一闭环难题,亟需三方积极靠拢,并有一方敢于率先投入,打破僵局。这场“机器人大脑”的进化竞赛,不仅是技术之战,更是生态与耐心的较量。

来源:https://www.leiphone.com/category/ai/ATpD7GIzTjyxsxDP.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

ARC Raiders背景故事解析与下次重大更新前瞻
游戏攻略
ARC Raiders背景故事解析与下次重大更新前瞻

《ARCRaiders》的“FrozenTrail”更新将揭示Arc机器人的起源。游戏背景与开发商另一作品《终极角逐》存在诸多隐秘关联,如共享虚构公司标志、彩蛋式视觉元素及意大利语涂鸦细节。推测两者处于同一世界观,《终极角逐》设定于2100年,而《ARCRaiders》则在2180年,后者描绘了精英阶层逃离地球后的末日景象。Arc机器人由人类制造,可能被逃离

热心网友
05.15
医疗病历自动化归档与智能数据录入解决方案
业界动态
医疗病历自动化归档与智能数据录入解决方案

在医疗数字化转型的浪潮中,病历归档与数据录入的自动化技术,正深刻重塑医院的核心工作流程。它通过智能模拟人工操作,高效处理海量、多源的病历信息,不仅实现了工作效率的指数级提升,更在数据准确性与一致性上带来了革命性的改善。其背后的技术逻辑与为医院创造的核心价值,值得我们深入剖析。 一、核心功能 自动化系

热心网友
05.15
财务审计RPA机器人如何自动识别与预警风险异常
业界动态
财务审计RPA机器人如何自动识别与预警风险异常

在财务审计工作中,风险与异常检测是保障企业财务健康的关键环节,其过程往往耗时耗力。随着RPA(机器人流程自动化)技术的成熟应用,这一核心任务正经历着深刻的变革,实现了效率与精准度的双重飞跃。本文将深入探讨RPA在审计风险检测中的具体应用路径,并解析其相较于传统人工方法所展现出的显著优势。 一、RPA

热心网友
05.15
网络爬虫工作原理详解从抓取到解析全流程
业界动态
网络爬虫工作原理详解从抓取到解析全流程

说起网络爬虫,很多人觉得神秘,其实它的工作原理并不复杂。简单来说,就是模拟人的浏览行为,自动从网上抓取信息。整个过程,可以拆解成几个清晰的核心步骤。 一、基本工作原理 整个过程始于一次“敲门”。爬虫通过HTTP库向目标网站发送一个请求,也就是一个包含了必要信息的Request对象。为了让请求看起来更

热心网友
05.15
RPA机器人自动提取表格数据一键高效完成对应项匹配
业界动态
RPA机器人自动提取表格数据一键高效完成对应项匹配

在数据驱动的业务环境中,从海量表格中精准提取特定信息是一项高频且繁琐的任务。传统人工操作不仅效率低下,还容易因疲劳或疏忽导致错误。如今,借助机器人流程自动化(RPA)技术,这类重复性工作完全可以交由“数字员工”高效、准确地完成。本文将以实在RPA为例,详细拆解如何从表格中提取对应项数据的完整落地步骤

热心网友
05.15

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

问界M9保值率80.4%夺冠 2026年4月纯电车型保值榜
业界动态
问界M9保值率80.4%夺冠 2026年4月纯电车型保值榜

近日,中国汽车流通协会联合精真估发布了《2026年4月纯电动车型一年车龄保值率排行榜》。这份数据对于正在选购新能源车的消费者具有重要参考价值,能帮助大家更清晰地了解当前热门电动车的残值表现。 该榜单统计的是车龄满一年的纯电动车型。位居榜首的是问界M9,其一年保值率高达80 4%。这一夺冠成绩含金量十

热心网友
05.16
追觅Aurora Lux系列手机发布 29款奢华设计全解析
业界动态
追觅Aurora Lux系列手机发布 29款奢华设计全解析

科技行业近期迎来一场备受瞩目的创新盛宴。以智能清洁机器人闻名的追觅科技(Dreame),在旧金山隆重举办了“Dreame Next 2026”未来愿景发布会。活动不仅前瞻性地展示了涵盖智能手机、智能穿戴乃至概念电动车的全系列产品,更邀请到苹果联合创始人史蒂夫·沃兹尼亚克亲临助阵。这场为期四天的盛会,

热心网友
05.16
SpaceX最快下周披露招股书 6月初启动全球路演计划
AI
SpaceX最快下周披露招股书 6月初启动全球路演计划

SpaceX最快下周披露招股书,6月初启动全球路演,估值或达1 75万亿美元,募资规模有望创纪录。公司以垂直整合与成本控制为核心优势,布局商业航天、AI基础设施与卫星互联网,其“太空数据中心”构想融合太空太阳能与AI算力,开辟新赛道。此次IPO或引发科技板块资金结构性变动,标志资本正加速拥抱太空与AI融。

热心网友
05.16
NVIDIA扩展机器人微服务库加速人形机器人发展
AI
NVIDIA扩展机器人微服务库加速人形机器人发展

NVIDIA在SIGGRAPH上宣布扩展其微服务库,以加速人形机器人开发。其核心是将生成式AI深度集成至OpenUSD语言体系,推出相关模型与NIM微服务,从而提升数字孪生与机器人工作流效率。公司还开放了机器人技术栈,并联合合作伙伴推动OpenUSD的工业应用,为开发者提供从仿真到部署的端到端平台支持。

热心网友
05.16
OKX交易所安全性如何?资金风险与监管深度解析
web3.0
OKX交易所安全性如何?资金风险与监管深度解析

OKX作为全球领先的数字资产交易平台,其风险主要来源于市场波动、技术安全与合规环境。平台通过多重安全机制、资产储备证明和严格的合规流程来管理风险。用户需理解加密货币的高波动性本质,并采取自主保管资产、启用安全功能等策略,以在参与Web3生态时更好地保护自身权益。

热心网友
05.16