先说一个有意思的数据:问你个事儿——每当你向 ChatGPT 敲下一个问题,背后大概要消耗 10 倍于一次 Google 搜索的电力。
一次简单的对话,看似便宜,不过几毛钱。但一天累积几亿次对话呢?那可是几千万美元的开销。算到一年,光电费就够你买一支英超球队的了。
但钱只是一方面。更要命的是,你的每一句话、每一张照片、每一段语音,都得先跨越几千公里飞到数据中心,被一群 GPU 翻来覆去地嚼一遍,再飞回来。
结果就是:延迟 200 毫秒起步,隐私全靠一纸信任协议。
那么,一个顺理成章的问题就蹦出来了:能不能把大模型直接塞进手机、PC、甚至耳机里?
就在本周,两大科技巨头同时亮出了答案:
AMD 正在把大型 AI 模型推向离设备更近的位置——通过 NPU(神经网络处理器)让笔记本和台式机自己就能跑起大模型。
苹果 则在推进以隐私为核心的 Siri 升级,强调端侧处理——数据不出手机,AI 全在本地搞定。
说直白点,云端 AI 是“去北京看病”,端侧 AI 是“家门口的社区医院”。并不是所有病都得跑协和,大部分日常小毛病,社区医院就能解决——更快、更便宜、还更私密。
今天我们就拆开来看,端侧 AI 到底怎么把大模型塞进小设备,技术上做了什么妥协,以及——这会怎样改变我们使用 AI 的方式。
一、为什么要把大模型搬下云端?
三重压力倒逼
端侧 AI 可不是什么“锦上添花”的装饰,它纯粹是被三重压力逼出来的。

压力一:成本。
云端推理的成本结构很清晰:GPU 算力 + 网络带宽 + 数据中心运维。像 GPT-4 这个级别的模型,每 100 万 Token 的推理成本大约在 10-30 美元。当用户量从百万级涨到十亿级,成本可就指数级往上窜了。
把推理搬到端侧,相当于让用户自己带算力。服务商的边际成本能直接降到接近零。
压力二:延迟。
云端推理的完整链条是:设备 → 基站 → 骨干网 → 数据中心 → GPU 计算 → 原路返回。走这么一圈,200-500 毫秒是常事,这还只是网络通畅的情况下。要是在地铁里、飞机上、或者偏远地区?很可能直接超时。
再看端侧推理的链路:设备 → NPU 计算 → 完成。延迟只有 10-50 毫秒,比眨一下眼睛还快。
压力三:隐私。
这一点最致命。欧盟的 GDPR、中国的《个人信息保护法》、加州的 CCPA——全球隐私法规越来越严格。用户的照片、语音、健康数据如果全得上传到云端处理,合规成本高得吓人,数据泄露的风险更是悬在头顶的达摩克利斯之剑。
端侧处理就意味着你的数据根本不出设备。不是“我们承诺不看你的数据”,而是“你的数据压根儿就没离开过你的手机”。技术层面上的隐私保证,比合同上的白纸黑字强一万倍。
一笔账算清楚
假设一个 AI 助手每天被使用 10 次,每次消耗 1000 Token:
方案 | 单次成本 | 日成本(10亿用户) | 年成本 |
|---|---|---|---|
云端推理 | 约 0.01 美元 | 约 1000 万美元 | 约 36.5 亿美元 |
端侧推理 | 约 0(用户硬件支付) | 约 0 | 约 0 |
36.5 亿美元对比 0。难怪所有硬件厂商都在拼命往终端设备里塞 AI 能力。
二、AMD 的策略:让每台 PC 都变成 AI 工作站
NPU 是什么?
简单打个比方:
CPU 是“全科医生”——什么都能看,但效率一般。
GPU 是“外科医生”——做并行手术特别厉害,但功耗高、价格贵。
NPU(神经网络处理器)是“AI 专科医生”——只管 AI 推理这一件事,但能效比高得吓人。
NPU 的核心优势在于 TOPS/W(每瓦算力)。在同样的功耗下,NPU 做 AI 推理的性能可以是 CPU 的 10-50 倍。
AMD 在做什么?
AMD 的端侧 AI 策略可以概括为三个字:塞进去。
第一步:把 NPU 塞进 CPU。 AMD 的 Ryzen AI 系列处理器,直接在 CPU 芯片内部集成了专用 NPU。你不需要额外地买加速卡,买了电脑就自带 AI 能力。
第二步:把大模型塞进小设备。 通过模型量化(从 FP32 压缩到 INT4/INT8)、知识蒸馏(用大模型训练小模型)等技术,把原本需要几百 GB 显存的大模型,硬生生压缩到几 GB 甚至几百 MB。
第三步:把生态塞进开发者。 AMD 推出了 Ryzen AI Software SDK,开发者可以很方便地把 AI 模型部署到 NPU 上。ONNX Runtime、PyTorch 这些主流框架都支持。

模型压缩:大象装冰箱
把一个 700 亿参数的大模型塞进只有 16GB 内存的笔记本里,听起来跟“把大象装进冰箱”一样不靠谱。但 AI 工程师们还真琢磨出了“三步装象法”:
第一步:量化。 把模型参数从 32 位浮点数(FP32)压缩到 4 位整数(INT4)。精度大约下降 1-3%,但模型体积能缩小 8 倍。一个 70B 参数模型,能从 280GB 直接压到 35GB。
第二步:剪枝。 砍掉模型中那些“不重要”的连接和神经元。就像修剪树枝——把不结果的枝条剪掉,树反而能长得更好。这一步通常能再压缩 30-50%。
第三步:蒸馏。 用大模型(教师)的知识去训练一个小模型(学生)。学生模型的参数可能只有教师的 1/10,但能保留 90-95% 的能力。
三步走完,一个 70B 的云端模型就能变成一个 7B 的端侧模型,稳稳当当地跑在普通笔记本上,延迟低于 50 毫秒。
代价呢?复杂推理能力会下降。端侧模型做翻译、摘要、代码补全这些事很流畅,但让它写一篇深度分析报告,或者做多步数学推理,那就有点力不从心了。
这就是“社区医院”的定位——常见病没问题,疑难杂症还是得去云端的“三甲医院”。
三、苹果的策略:隐私即产品
苹果做端侧 AI 的逻辑
苹果做端侧 AI 的逻辑跟 AMD 完全不同。
AMD 是性能驱动:让 PC 跑得动更大的模型。
苹果是隐私驱动:用户的数据一个字节都不能出设备。
这不是技术偏好问题,是商业模式决定的。
Google 和 Meta 靠广告赚钱——它们需要你的数据来精准投放广告。而苹果靠卖硬件赚钱——它不需要你的数据,反而可以把“不碰你的数据”当成卖点。
“你的数据留在你的设备上”——这句话对 Google 来说是成本,对苹果来说就是一句金光闪闪的广告语。
Siri 升级的技术路线
苹果正在推进的 Siri 升级,核心是一套分层处理架构:
第一层:完全端侧。 简单任务——比如设闹钟、发消息、查天气——完全在设备上处理。不联网,不上传,零延迟。苹果的 Neural Engine(自家版 NPU)负责干活。
第二层:私有云计算。 遇到复杂任务需要更大模型时,数据会被加密发送到苹果专用的服务器集群。这些服务器运行着定制的 Apple Silicon 芯片,不存储用户数据,处理完就立刻删除。
第三层:第三方模型(如 ChatGPT)。 最复杂的任务可以选择调用外部模型,但必须经过用户明确授权,而且苹果会尽量把请求匿名化。
这套架构的核心思想很清晰:能在本地做的绝不上云,必须上云的绝不存储,必须用外部的绝不自动授权。
隐私 vs 功能的博弈
苹果的隐私策略带来了一个根本性的矛盾:
端侧模型越小,隐私越好,但功能越弱。云端模型越大,功能越强,但隐私越差。
这就是为什么 Siri 在“智能程度”上一直被 Google Assistant 和 ChatGPT 压着打——不是苹果做不出更聪明的 AI,而是苹果选择了隐私优先的技术路线,这条路天然会牺牲一部分能力上限。
苹果赌的是:用户最终会选“够用且安全”,而不是“很强但裸奔”。
就目前来看,这个赌注在高端市场是成立的。愿意为隐私付费的 iPhone 用户,明显多于安卓用户。
四、端侧 vs 云端:不是替代,是分层
“混合推理”才是终局
端侧 AI 不会取代云端 AI,就像社区医院不会取代三甲医院。最终架构一定是混合推理——根据任务的复杂度、隐私敏感度、网络状况,动态决定在哪里算。
场景 | 推理位置 | 原因 |
|---|---|---|
语音唤醒/人脸解锁 | 端侧 | 延迟要求极高,隐私敏感 |
实时翻译/字幕 | 端侧 | 延迟敏感,离线场景多 |
照片编辑/美颜 | 端侧 | 隐私敏感,计算量适中 |
写一封邮件 | 端侧/边缘 | 中等复杂度,可本地处理 |
深度代码分析 | 云端 | 需要大模型,复杂推理 |
训练/微调模型 | 云端 | 算力需求极大 |
决策树其实很简单:能本地做的本地做,本地做不了的上边缘,边缘做不了的上云端。
硬件厂商的终极目标
AMD、苹果、高通、英特尔——所有硬件厂商推端侧 AI 的终极目标其实都一样:卖更多芯片。
“你的旧电脑/旧手机跑不了 AI”——这是自 4G 升 5G 以来,最强的换机驱动力。
高通的骁龙 X Elite、AMD 的 Ryzen AI、苹果的 M4、英特尔的 Lunar Lake——每一家都在把 NPU 算力写进芯片的广告语里。
PC 行业沉寂了五年,终于找到了让用户换电脑的理由:你的电脑不支持 AI。
手机行业也一样。“端侧大模型”正在成为旗舰手机的标配卖点,就像当年的“千万像素摄像头”。
五、对技术人的三个判断
第一,端侧推理是未来 2-3 年最确定的技术趋势。
不管你做前端、后端还是移动端,了解端侧 AI 的部署方式(ONNX、Core ML、TensorFlow Lite)都会变成加分项。模型压缩和量化技术尤其值得花时间研究。
第二,“混合推理”架构设计将成为新的技术壁垒。
如何设计一套系统,让 AI 任务在端侧、边缘和云端之间无缝切换?这里涉及模型分割、智能路由、一致性保证——这些架构问题目前还没有标准答案,谁先解决谁就有优势。
第三,隐私将成为 AI 产品的核心竞争力。
苹果已经证明“隐私可以卖钱”。随着全球隐私法规不断收紧,“你的数据不出设备”将从营销口号变成技术刚需。端侧 AI 不只是性能优化,更是合规基础设施。
写在最后
云端 AI 就像一座巨大的发电站——功率惊人,但电线拉不到每个角落。
端侧 AI 则像每家每户屋顶的太阳能板——功率有限,但能自给自足,不怕断电。
未来的 AI 基础设施,不会只有发电站,也不会只有太阳能板。而会是发电站 + 太阳能板 + 储能电池构成的混合电网。
AMD 在造更强的太阳能板,苹果在造更安全的太阳能板。殊途同归——都是为了让 AI 从“云上的奢侈品”变成“身边的日用品”。
你的下一台电脑,也许就自带了一个“小号 ChatGPT”。不需要联网,不需要付钱,不需要把你的秘密告诉任何人。
那一天,不远了。
