端侧算力迎来奇点时刻 需求模型与芯片共振解析
端侧算力的真正爆发点,可能并非我们日常使用的手机或电脑,而是那些具备自主行动能力的机器人。
近期,国盛证券通信研究团队发布深度报告,系统梳理了端侧算力在市场需求、模型演进与芯片技术三大维度的最新动态,并明确指出:端侧算力正迎来一个关键的“奇点”时刻。
这一判断源于对行业趋势的深度复盘。两年前,市场普遍预期手机、PC等AI设备的本地算力将快速增长。然而现实是,这些设备上的多数AI功能仍依赖云端处理,端侧算力并未如预期般大规模应用。
所谓端侧算力,指的是在用户终端设备(如智能手机、AI眼镜、个人电脑、智能家居设备及机器人)本地直接进行数据处理的能力,无需完全依赖远程云端服务器。报告总结道:“不应低估云端模型的能力边界”,同时“需求并非凭空产生”。
云端能力过强,传统端侧需求受抑制
过去三年,云端大模型的进化速度远超行业预期。随着“超节点”、“PD分离”等先进云端算力架构的部署,云端模型在性能大幅提升的同时,单位计算成本正加速下降。
以文生图技术为例:三年前,行业尝试在端侧部署Stable Diffusion模型,当时端侧仅能生成逻辑简单的512×512像素图像。如今,云端GPT-4o等模型已能在10秒内生成细节丰富的4K高清图像,能力远超端侧。

原本支撑端侧算力发展的三大理由——数据隐私、低成本、低延迟——在云端技术的强势进化下逐一受到挑战。报告认为,“隐私性”与“低成本”两大需求正被现实证伪,目前真正站得住脚的或许只剩“低延迟”这一核心优势。
但这里所说的低延迟,并非指人类等待AI生成回复的速度。当前,如腾讯混元T1等先进模型,其文本生成速度已达每秒60-80个token,首字响应几乎瞬间完成,早已低于人类的感知阈值。
报告强调的低延迟,特指设备对外部信号进行内生处理的实时性。人脑从视觉感知到运动反应约需180-200毫秒;而一个设备若需将信号上传至云端解析、再传回本地执行,整个流程往往耗时2-5秒以上——若涉及图像等多模态信号,延迟将更为显著。

这正是云端算力难以触及的瓶颈。报告做了一个生动比喻:若将人体神经替换为无线信号,将大脑替换为云端算力,整个处理链路的稳定性和延迟将因通信距离而大幅增加。
需求何在?在于能够自主行动的机器人
锁定“低延迟”这一核心命题后,真正的需求方向变得清晰:让“类人终端”具备更接近人类的实时反应能力。
报告将当前类人终端按智能程度划分为四类:
第一类:摄像头等感知硬件,需处理更多路信号、运行更精细的识别模型。
第二类:工具型机器人(如割草机、泳池清洁机),需识别更多元、复杂的场景。例如,割草机器人若能识别宠物粪便、石块、积雪、落叶等,即可进化为全年可用的“智能庭院机器人”。
第三类:智能汽车,需理解各种异形障碍物及极端复杂的道路环境。
第四类:人形机器人,需实时理解物理世界并与之互动,其输入涵盖视觉、听觉、触觉等多模态信号,输出则是复杂的连贯肢体动作。

报告的核心判断是:本轮端侧算力需求,并非资本市场的单方面想象,而是“客户真实需求增长与行业技术能力进化共同形成的闭环结果”。割草机器人、送餐机器人、无人驾驶汽车的普及,使用户在接纳基础功能后,自然产生了更高的智能化要求。

模型三级跳:从“图像识别”到“未来预测”
需求侧的演进,离不开模型技术的支撑。报告清晰梳理了端侧视觉模型的进化路径。
第一代:YOLO模型
在大模型时代之前,机器视觉主要依赖基于CNN卷积神经网络的YOLO模型。其原理是将图像划分为网格,每个网格负责预测其中的物体。这好比经验丰富的保安快速扫视人群,一旦某个网格内出现“车”或“人”的特征,便立即框选标识。其优点是速度快,但硬伤明显:难以处理不规则物体和3D场景,亦无法理解物体间的逻辑关联。

第二代:Vision Transformer(ViT)
随着大模型思路引入视觉领域,ViT模型突破了性能天花板。它将图像切割为小块,像进行阅读理解一样,分析每个图像碎片与全图其他部分的关系。形象地说,当它识别到左上角的“猫耳朵”时,能通过逻辑联想预判右下角可能存在的“猫尾巴”,即使二者在图像中相距甚远。

ViT模型对算力需求更高,这恰恰打通了端侧算力升级的商业逻辑——更强的本地算力能直接转化为更强的终端智能体验,而非“空有算力却无法提升性能”。
第三代:VLM→VLA→世界模型
智能驾驶的快速发展加速了这一演进历程。
VLM(视觉-语言模型):能理解图像并将其转化为语义信息,相当于“坐在副驾的解说员”,将路况转化为机器可理解的“情报”。
VLA(视觉-语言-动作模型):在VLM基础上加入“动作”维度,直接从视觉感知输出控制指令,例如“方向盘左转10度”、“油门踩下20%”,实现从感知到执行的端到端控制。英伟达近期已发布开源VLA模型Alpamayo。
世界模型:更进一步,引入了预测与推演机制。它在执行动作前,会模拟未来数秒内的多种可能场景,“通过生成未来视频画面来评估风险,从而在无数‘平行宇宙’中选择最安全的路径”。

机器人前沿:GEM模型
相比智能驾驶,让机器人理解并与物理世界互动的难度更高。智能车的核心目标是“避免碰撞”,而机器人则需实时与外界进行物理和语言的交互。
报告认为,GEM(Grounding Embedding Model,接地嵌入模型)是解决这一难题的可能路径。简言之,它能将机器人的感知数据(如摄像头画面、激光雷达点云)与高层指令(如“把蓝色的杯子递给我”)映射到同一特征空间,使机器人即使从未见过某物体,也能通过语义理解完成任务。谷歌的RT-2模型正探索这一方向,试图将图像、动作、语言全部转化为统一的“token”以实现对齐。

报告同时指出,GEM模型当前的主要挑战在于多模态信号的对齐,以及灾难性遗忘、模态鸿沟等问题,“不仅需要模型工程的持续优化,在未来执行层面,也需要专用算力芯片架构的配合”。
芯片竞争:NPU遭遇瓶颈,GPGPU向下渗透
模型需求明确后,芯片成为最终的落地载体。报告详细分析了NPU与GPGPU两条技术路线的优劣。
NPU:从YOLO兴起,面临架构瓶颈
NPU的第一波增长源于YOLO模型的普及——安防摄像头、初级移动机器人大量搭载了NPU芯片。瑞芯微的RK系列凭借高性价比和低功耗成为主流选择,其营业收入从2016年的12.98亿元增长至2025年的44.02亿元。

但进入大模型时代,NPU遇到了架构层面的硬约束。在扫地机器人等低功耗场景下,若要以ViT基座模型替代YOLO,算力需求将接近100 TFLOPS。更关键的是,NPU缺乏CUDA CORE,所有指令需由CPU下发,而在端侧功耗和成本限制下无法使用高性能CPU。这导致一个困境:“一旦在较弱的CPU下挂载过多NPU核,用于AI任务的指令就会占满CPU所有通信带宽,从而导致设备宕机。”
当前有两条破局路径:
高通跃龙IQ10:采用更强的CPU和更大面积的NPU核,并融合部分GPU的任务调度结构。
瑞芯微RK182x:采用3D-DRAM+协处理器双轨并行,通过堆叠封装增加NPU与存储间的带宽,同时将AI推理任务从主芯片剥离,缓解总线拥堵。

GPGPU:继承云端优势,生态壁垒显著
相比NPU,GPGPU向端侧渗透的路径更为顺畅。云端GPGPU本就是全功能芯片,走向端侧只需按需缩减芯片面积和核心数量,无需面临NPU的架构改造难题。
英伟达的智能驾驶业务收入从2024财年的5.36亿美元增长至2026财年的23.49亿美元,其Orin、Thor系列已推出覆盖不同价位和算力段的产品线。

但GPGPU的核心优势不止于硬件,更在于其强大的软件生态。报告指出,大部分端侧模型的预训练和微调都需借助CUDA生态完成,“若在端侧使用GPGPU架构,无论是部署速度还是最终效果,都将远超需要转译的NPU环境”。同时,英伟达在FP4等低精度推理方面已有成熟方案,可直接下放至端侧,而NPU在此领域的追赶则较为艰难。

报告结论是:看好GPGPU架构在端侧市场的渗透率持续提升。但英伟达高昂的售价注定其不会成为唯一选择,这也为高通(凭借通信与计算融合的SOC方案)和国内芯片公司(以性价比切入下沉市场)留出了竞争空间。
投资布局:聚焦芯片、模组、存储三大环节
报告将端侧算力的投资机会分为三个主要环节:
芯片:这是价值量提升最大的环节。需重点关注NPU的迭代与GPGPU的向下渗透。报告特别指出,在端侧设备中,算力成本的占比将显著提升,“这一逻辑与云端基础设施建设类似”。
模组:报告称之为“旱涝保收的中间环节”。端侧算力客户极度分散,模组公司承担着连接上游芯片与下游万千应用场景的桥梁作用。无论哪种芯片路线最终胜出,模组厂商都能从中受益。在IoT时代已实现全球市场份额“东升西落”的中国模组公司,预计不会缺席本轮增长。
存储:3D-DRAM是报告重点提及的新方向。端侧芯片的推理能力同样受内存容量和带宽制约,3D-DRAM通过将DRAM与NPU进行堆叠封装,能在低成本、低功耗的前提下有效提升带宽,满足端侧大模型需求。

相关攻略
美股市场又迎来了一个分化明显的交易日。地缘整治风险再度升温,美联储官员的鹰派言论给市场情绪泼了盆冷水,加上投资者屏息等待本周英伟达、沃尔玛等巨头财报的指引,三大指数最终涨跌互现。 收盘时,道琼斯工业指数小幅上涨0 32%,收于49686 12点;而标普500指数微跌0 07%,报7403 05点;纳
芯片验证领域迎来变革。AI与形式化验证深度融合,实现了从自然语言到全自动验证的闭环。该方案能自动生成断言、进行数学证明与漏洞定位,智能迭代至100%逻辑覆盖率。实测效率较传统方式提升约16倍,覆盖率大幅跃升,助力芯片产业迈向“零缺陷”目标。
最近,韩国半导体圈上演了一场堪称“地震级”的人才争夺战,而风暴眼,正是当下最炙手可热的AI存储芯片。这场争夺的激烈程度,从一组数据就能窥见一斑:过去短短四个月,已有大约200名三星电子的核心工程师,选择转投竞争对手SK海力士的怀抱。三星内部甚至流传着一个略带苦涩的自嘲式外号——“海力士补习班”,意指
全球首颗光计算卫星研制启动,太空算力竞赛已展开。多国机构正部署或计划发射计算卫星,以实现数据在轨处理,从而缩短响应时间、缓解通信压力。太空环境对芯片辐射耐受与散热提出挑战,光计算芯片因抗辐射、低热耗成为重要路径。中国凭借光伏与集成电路等产业基础,为天基计算发展。
进入第二季度,中国新能源汽车市场迎来了一轮显著的集体调价。从传统汽车制造商到新兴的造车品牌,纷纷调整了旗下车型的官方售价或市场优惠,其核心驱动力在于关键原材料成本的持续上涨。 根据行业统计,截至5月中旬,已有超过15家主流新能源车企宣布涨价,涵盖比亚迪、特斯拉、小米汽车、蔚来、小鹏、极氪、星途等知名
热门专题
热门推荐
在使用Safari浏览器时,自动填充功能确实能极大提升效率。但随着时间推移,其中可能积累大量过时地址、失效密码,甚至无意保存的敏感内容。这些残留记录不仅影响使用体验,更可能成为隐私泄露的隐患。本文将系统介绍在Mac上彻底清理Safari自动填充记录的多种实用方案,帮助您有效管理浏览器数据。 一、通过
你是否遇到过这样的困扰:电脑明明处于空闲状态,风扇却突然高速运转,硬盘指示灯频繁闪烁,任务管理器显示CPU或磁盘占用率异常飙升?这种“系统看似休息,硬件却异常忙碌”的现象,很可能源于Windows系统内置的“自动维护”功能在后台悄然运行。该功能的设计初衷是好的,旨在利用系统空闲时间自动执行磁盘碎片整
如果你在使用Windows 11时,感觉屏幕上的文字、图标或按钮有些模糊不清,看久了眼睛容易疲劳,这可能不是你的视力问题,而是系统默认的色彩搭配对比度不够。为了让界面元素更醒目、更容易识别,Windows 11内置了一个非常实用的功能——高对比度模式。它通过大幅强化前景与背景的颜色差异,能显著提升屏
当你的Mac出现运行卡顿、风扇噪音增大或应用程序启动缓慢时,很可能是因为Spotlight索引服务正在后台占用大量系统资源。Spotlight作为macOS内置的搜索工具,虽然方便,但其持续的索引过程确实可能影响性能。本文将详细介绍五种有效管理Spotlight的方法,包括彻底禁用、精准控制索引范围
当您在 macOS 上遇到 Microsoft Teams 运行缓慢、界面显示错误或登录失败等问题时,不必立即归咎于网络或系统故障。一个常见且高效的解决方案是清理应用程序的本地缓存文件。这些缓存数据在长期使用后可能损坏或过时,从而影响软件性能。本文将为您提供三种在 Mac 上安全清理 Teams 缓





