苏姿丰带领AMD在Agent时代再出重磅战略

时间：2026-05-28 21:43

AMD在上海举办AI开发者日，首次落地北美以外。CEO苏姿丰指出AI正从训练转向推理，数据中心CPU与GPU比例将从1:4变为1:1，CPU在智能体协调中作用提升。AMD推出“智能体主机”新硬件品类，支持本地高效运行大模型以降低推理成本。ROCm开源生态持续扩大，已支持超300万个模型，并通过与中国开发者社区合作降低迁移门槛。

2026年5月19日，AMD在上海成功举办了首届AI开发者日（AI DevDay 2026），这也是该活动首次走出北美，落地亚洲。活动现场吸引了超过2000名开发者参与，AMD董事会主席兼CEO苏姿丰、高级副总裁Jack Huyngh分别发表主题演讲。零一万物CEO李开复、阶跃星辰CTO朱亦博、清华大学教授汪玉等业界与学界重量级嘉宾也登台分享了前瞻观点。大会以“开放-构建-创新-连接”为主题，系统性地勾勒出一条与行业巨头NVIDIA截然不同的算力发展路径。

CPU:GPU从1:4到1:1，推理应用正在重塑算力配比格局

苏姿丰在演讲中披露了一个关键数据：传统数据中心中CPU与GPU的配比通常为1:4，而到2026年，这一比例预计将转变为1:1。这一变化的背后，是AI应用从训练阶段向推理阶段的范式迁移。在训练环节，GPU承担几乎所有密集计算，CPU主要负责调度与数据搬运，1:4的配比合情合理。然而进入推理阶段，尤其是智能体（Agent）运行时，计算结构发生了根本性改变。一个智能体要完成复杂任务，涉及目标解析、工具调用、多步骤决策、状态管理与数据流转——这些复杂逻辑的编排恰恰是CPU的强项。GPU继续负责大模型推理与并行计算，而CPU则升级为协调调度与逻辑控制的核心，两者角色趋于对等。

苏姿丰在演讲中清晰展示了这一逻辑链条：从“大模型为中心”转向“智能体编排”，Agent的每一步运行都重度依赖CPU。GPU的工作量并未减少，但在推理场景下CPU的工作量大幅增加，从辅助角色转变为对等伙伴。这一判断对产业的影响具体而深远：服务器采购逻辑将随之改变，CPU的调度能力成为新的关键评估指标；芯片公司也需要重新平衡CPU与GPU产品线的资源投入。目前行业资源高度集中在训练侧，推理侧的算力需求增速尚未充分反映到基础设施投资中。AMD凭借在CPU领域的EPYC产品线与GPU领域的Instinct系列，成为少数两家都能提供、且有动力推动这一趋势的厂商。

200B参数模型本地运行接近100 tokens/s，Token成本趋近于零

AMD在此次大会上明确提出“智能体主机”这一新硬件品类。其定义清晰：配备96GB GPU专属显存、128GB统一内存，可本地运行200B参数大模型，支持7×24小时持续工作，且断网环境下依然可用。目前，基于Ryzen AI Max+系列处理器的系统设计已有35款落地，合作伙伴包括惠普、华硕、联想、宏碁以及多家本土品牌，覆盖笔记本、一体机与Mini AI工作站等多种形态。

AMD高级副总裁Jack Huynh描绘了一条清晰的AI部署路径：开发阶段使用Ryzen AI Max在本地运行200B模型；规模测试阶段采用Radeon AI Pro R9700配合Threadripper Pro 9000工作站（提供128条PCIe 5.0通道，支持多GPU协同）；最终部署阶段则上马MI350系列数据中心GPU。关键在于，同一套ROCm软件栈贯穿始终，实现从笔记本到数据中心的代码一次编写、全路径运行。

这条路径能否成立，核心取决于本地推理的性能与经济性。阶跃星辰CTO朱亦博在现场提供了一组有力数据：其Step 3.5模型约1960亿参数，经过4位量化后，在AI Max 395平台上的解码速度接近每秒100个token，甚至比许多云端模型API还要快。阶跃星辰即将发布的新模型也将继续在AMD平台上保持流畅运行。这组性能数据背后是一道清晰的经济账：智能体运行的特点是持续调用、高频推理，若采用云API按Token计费模式，企业长期成本将非常高昂。而本地部署则将Token成本压至趋近于零，仅消耗电费。有技术分享提到，中国头部开发者一年在API调用上的花费可达数百万元。当200B参数模型能以近100 tokens/s的速度在本地运行时，许多AI应用的商业模式才能真正算得过来账。

零一万物与AMD联合推出的Cube01企业智能体一体机正是基于此理念，它能在本地同时运行数百个Agent。李开复在与苏姿丰的对谈中提出了“DRI”（直接责任人）概念，他认为在智能体时代，开发者的角色将从编写代码转向编排智能体并对最终结果负责。他更直言，企业CEO应主导AI转型，因为IT部门天然倾向于安全部署而非业务重构，导致许多企业的AI应用停留在会议纪要、内部搜索等低价值场景，未能触及真正影响损益表的核心业务流程。

李开复对2024至2026年AI行业核心问题的演变做了梳理：2024年是“AI能不能完成一项任务”，2025年是“AI能不能完成一条完整工作流”，2026年则演进为“AI能不能运营一个企业职能部门”。顺着这个逻辑，智能体主机所要承载的，是能够持续运行、自主决策并对业务结果负责的AI系统，而不仅仅是运行模型的终端设备。

300万模型实现Day 0适配，ROCm正在拆除CUDA的围墙

ROCm是AMD在软件层面与NVIDIA竞争的核心武器。本次大会披露了其最新进展：新增支持锐龙AI 400系列处理器，相关组件可在ComfyUI中直接下载；从ROCm 7.2版本开始同时支持Windows和Linux系统；通过Hugging Face和魔搭社区，其支持模型数量已超过300万个；DeepSeek、通义千问、MiniMax、Kimi、阶跃星辰、小米MiMo等国内主流开源模型均已实现Day 0适配。此外，AMD推出了面向中国AI开发者的免费公共开发者云，底层搭载Radeon GPU；与魔搭和阿里云的合作，使得开发者无需自备硬件，即可直接在魔搭创空间中使用AMD GPU。

一个值得注意的内部实践是，AMD部署了数千个Agent持续监控开源社区，自动识别AMD支持中的缺口，生成完整的Pull Request并完成自动测试，将工程师的产出效率从每周几个PR提升至每天几个。AMD还利用Agent辅助进行GPU内核的性能优化——针对不同模型推理负载的内核特征，Agent能自动生成内核排列组合，进行性能分析和迭代，速度远超人工。开源，对AMD而言是唯一可行的竞争策略。CUDA的壁垒在于开发者生态的惯性：代码已在NVIDIA平台上跑通，迁移到另一个平台需要时间和试错成本。AMD要打破这种惯性，必须将迁移成本压到最低。ROCm的思路是做抽象层：开发者无需关心底层GPU的具体型号，编写一次代码即可在从笔记本到数据中心的任何AMD硬件上运行。同时，通过支持OpenAI Triton、Gluon、TileLang等工具，进一步降低了GPU编程的门槛。

李开复在对谈中对开源模式给出了一个精辟的比喻：硅谷闭源模型公司的模式类似于iOS，追求高利润和封闭控制；而全球开源社区的模式则类似于Android，覆盖面广，强调开放协作。他指出，中国AI企业由于算力资源相对有限，无法像美国巨头那样“暴力”堆砌算力，因此工程效率和开源协作能力是被迫进化出的核心优势。他将中国AI生态比作一个“去中心化的学习小组”——企业在商业上竞争，却在开源层面共享成果。AMD在中国市场集中投入开源生态，正是契合了这一市场结构：这里拥有全球最活跃的开源社区和最愿意尝试新硬件的开发者群体。

数据不上云、延迟不等人，中国市场验证端侧推理价值

AMD AI开发者日此前仅在旧金山举办，上海成为北美之外的首站，超过2000人的现场规模也印证了其重要性。苏姿丰在演讲中多次强调中国市场的重要性：AMD在华已超过30年，大中华区主要研发中心拥有超过4000名工程师，并在四地设立了AI卓越中心；今年恰逢上海研发中心成立二十周年。AMD在中国所阐述的内容具有明确的指向性：端侧推理、开放生态、本地部署。这三个方向，在中国市场有着坚实的现实约束作为支撑。

现场演示了一个医疗场景：基于Ryzen AI Max的问诊系统包含病例采集、知识图谱、患者简报三个Agent，所有数据均在本地处理，演示过程中甚至切断了WiFi。Jack Huynh指出，中国的医疗法规要求患者数据不能上云，本地推理在此场景下成为了合规的前提。朱亦博也表达了类似判断：本地AI无需持续联网，响应更快，且不向云端发送数据。他相信未来将是端云协同的模式——本地模型处理高频、低延迟、隐私敏感的任务，复杂任务再调用云端大模型，从而大幅降低Token成本。

清华大学电子工程系教授、无问芯穹发起人汪玉则提出了“物理AI”的方向。他指出，机器人、无人机等设备的感知-决策-控制延迟要求达到毫秒级，算力必须在设备本地。无问芯穹与AMD合作开发的物理AI推理框架RLinf，在四个月内于GitHub上获得了超过3300个Star，并被超过20家公司采用。汪玉提出了一个公式：AI生产力 = 智能规模 × Token生产效率 × Token价值转化。其中，Token生产效率（每秒生成的Token数）直接与硬件和软件的协同优化相关，这也是AMD芯片在无问芯穹平台上被重点优化的方向。

苏姿丰预测，到2030年全球将有50亿人每日使用AI。Jack Huynh补充了一个对比：PC普及花了45年，互联网花了27年，智能手机花了15年，而AI的普及速度将远超此前任何技术。他透露，推理Token需求在2026年上半年比2025年同期增长了20倍，推理成本正在从一个技术问题演变为战略资源问题。AMD在上海这场大会上释放的信号可以归结为：AI产业的下一个增长点正在向推理侧和端侧转移，算力将从集中的训练集群散落到每一台设备、每一个工厂、每一个机器人中。在这个新阶段，单纯堆叠GPU数量不再是唯一答案，CPU的调度能力、软件栈的开放性、端侧部署的经济性，都成为了同等重要的竞争维度。AMD选择的路线——聚焦端侧推理、拥抱开放生态、推动本地部署——每一项都指向了当前市场领导者布局中的相对薄弱环节。两条技术路线都拥有各自的市场空间，但推理侧和端侧的增长速度，将最终决定这条差异化路线能走多远。

来源：https://www.163.com/dy/article/KTC4V6F305118VMB.html

苏姿丰

上一篇美团副总裁毛一年：无人机业务两三年内规模化盈利 下一篇安全公司BeyondTrust披露2025年度微软Office安全漏洞总数达157个

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。