5月19日,AMD将AI开发者日(AI DevDay 2026)首次带到了北美以外的上海。现场超过2000名开发者,与AMD董事会主席及CEO苏姿丰、高级副总裁Jack Huynh,以及零一万物CEO李开复、阶跃星辰CTO朱亦博、清华大学教授汪玉等嘉宾,共同探讨了AI的未来。大会主题“开放-构建-创新-连接”之下,真正值得玩味的,是AMD借此机会,系统性地勾勒出一条与行业巨头NVIDIA截然不同的算力演进路线。

CPU与GPU配比从1:4到1:1,推理场景正在重塑算力格局
苏姿丰在演讲中抛出了一个关键数据:传统数据中心里,CPU与GPU的比例通常是1:4,但到了2026年,这个比例将演变为1:1。
这背后的逻辑其实很清晰。在模型训练阶段,GPU承担了几乎所有的重负载计算,CPU主要负责调度和数据搬运,1:4的配比合情合理。然而,到了推理阶段,尤其是智能体(Agent)工作流中,计算结构发生了根本性变化。一个智能体要完成一项任务,往往涉及目标解析、工具调用、多步骤决策、状态管理和数据流转——这些复杂逻辑的编排,恰恰是CPU的强项。GPU继续负责其擅长的大模型推理和并行计算,而CPU则升级为协调调度和逻辑控制的核心,两者角色从主从关系转变为对等协作。
苏姿丰在现场清晰地展示了这一逻辑链:从“大模型为中心”转向“智能体编排”,Agent的每一步运行都重度依赖CPU的调度能力。GPU依然不可或缺,但CPU的工作量在推理场景下大幅提升,从辅助角色变成了对等伙伴。
这个判断对产业的影响是具体而深远的。服务器的采购逻辑将随之改变,CPU的调度能力将成为新的关键考量因素,芯片公司也需要重新平衡其在CPU和GPU产品线上的资源投入。目前,行业资源高度集中在训练侧,推理侧的算力需求增速尚未充分反映到基础设施投资中。AMD凭借在CPU领域的EPYC产品线和GPU领域的Instinct系列,成为少数有能力且有意愿推动这一趋势的厂商。如果1:1的配比成为现实,其产品组合将迎来独特的市场机遇。
200B参数模型本地跑近100 tokens/s,Token成本趋近于零
这次大会上,AMD明确提出了“智能体主机”这一新硬件品类。其定义很具体:具备96GB GPU专属显存、128GB统一内存,能在本地运行200B参数模型,支持7×24小时持续工作,并且断网可用。
目前,基于Ryzen AI Max+系列处理器的系统设计已有35款落地,来自惠普、华硕、联想、宏碁及多家本土品牌,覆盖了笔记本、一体机和Mini AI工作站等多种形态。

AMD高级副总裁Jack Huynh描绘了一条清晰的AI部署路径:开发阶段,用Ryzen AI Max在本地运行200B模型;规模测试阶段,转向Radeon AI Pro R9700配合Threadripper Pro 9000工作站(提供128条PCIe 5.0通道,支持多GPU协同);最终部署阶段,则采用MI350系列数据中心GPU。关键在于,同一套ROCm软件栈贯穿始终,实现了从笔记本到数据中心的代码一次编写、全路径运行。
这条路径能否成立,核心在于本地推理的性能和经济性是否足够有吸引力。阶跃星辰CTO朱亦博在现场提供了一组令人印象深刻的数据:其Step 3.5模型约1960亿参数,经过4位量化后,在AI Max 395平台上的解码速度接近每秒100个token,这个速度甚至超过了许多云端模型的API响应。阶跃星辰即将发布的新模型也将继续在AMD平台上保持流畅运行。
这组性能数据的背后,是一道清晰的经济账。智能体运行的特点是持续调用、高频推理,如果完全依赖云API并按Token计费,企业的长期成本将非常高昂。本地部署则能将Token成本压至趋近于零,主要消耗仅为电费。有技术分享提到,中国头部开发者一年在API调用上的花费可达数百万元之巨。当200B参数的模型能在本地以近100 tokens/s的速度运行时,许多AI应用的商业模式才能真正算得过账来。
零一万物与AMD联合推出的Cube01企业智能体一体机,正是基于此理念,它能在本地同时协调运行数百个Agent。李开复在与苏姿丰的对谈中提出了一个“直接责任人”(DRI)的概念,他认为在智能体时代,开发者的角色将从编写代码,转向编排智能体并对最终业务结果负责。他更直言,企业CEO应当主导AI转型,因为IT部门天然倾向于安全部署而非业务重构,导致许多企业的AI应用停留在会议纪要、内部搜索等低价值场景,未能触及真正影响损益表的核心业务流程。

李开复对2024至2026年AI行业核心问题的演变做了梳理:2024年是“AI能不能完成一项任务”,2025年是“AI能不能完成一条完整工作流”,而2026年将演进为“AI能不能运营一个企业职能部门”。顺着这个逻辑,智能体主机所要承载的,将是能够持续运行、自主决策并对业务结果负责的AI系统,而不再仅仅是运行模型的终端设备。
300万模型实现Day 0适配,ROCm正在打破CUDA生态壁垒
ROCm,是AMD在软件层面与NVIDIA竞争的核心武器。本次大会披露了其最新进展:新增支持锐龙AI 400系列处理器,相关组件可在ComfyUI中直接下载;从ROCm 7.2版本开始,同时支持Windows和Linux两大操作系统;通过Hugging Face和魔搭社区,其覆盖的模型数量已超过300万个;DeepSeek、通义千问、MiniMax、Kimi、阶跃星辰、小米MiMo等国内主流开源模型均已实现Day 0适配。
此外,AMD推出了面向中国AI开发者的免费公共开发者云,底层搭载Radeon GPU;与魔搭和阿里云的合作,使得开发者无需自备硬件,即可直接在魔搭创空间中使用AMD GPU进行开发。
一个值得注意的实践是,AMD内部部署了数千个Agent,持续监控各大开源社区,自动识别AMD支持中的缺口,生成完整的Pull Request并完成自动化测试,将工程师从繁琐的适配工作中解放出来,产出效率大幅提升。AMD甚至利用Agent辅助进行GPU内核的性能优化——针对不同模型推理负载的内核特征,Agent能自动生成内核排列组合,进行性能分析和迭代,其速度远超人工。
对于AMD而言,开源是唯一可行的竞争策略。CUDA的壁垒在于其庞大的开发者生态惯性:代码已经在NVIDIA平台上跑通,迁移到另一个平台意味着额外的成本和试错风险。要打破这种惯性,就必须将迁移成本压到最低。ROCm的思路是做高层次的抽象:开发者无需关心底层GPU的具体型号,编写一次代码,即可在从笔记本到数据中心的任何AMD硬件上运行。同时,通过支持OpenAI Triton、Gluon、TileLang等工具,进一步降低了GPU编程的门槛。
李开复在对谈中对开源模式有一个精辟的比喻:硅谷闭源模型公司的模式类似于iOS,追求高利润和封闭控制;而全球开源社区的模式则类似于Android,覆盖面广,强调开放协作。他指出,中国AI企业由于算力资源相对有限,无法像美国巨头那样“暴力”堆砌算力,因此工程效率和开源协作能力是被迫进化出的核心优势。他将中国AI生态比作一个“去中心化的学习小组”——企业在商业层面竞争,却在开源层面积极共享成果。AMD在中国市场集中投入开源生态,正是看中了这里拥有全球最活跃的开源社区和最愿意尝试新硬件的开发者群体。
数据不上云、延迟不等人,中国市场验证端侧推理价值
AMD AI开发者日此前仅在旧金山举办,上海是其在北美之外选择的唯一一站,超过2000人的现场规模也印证了其重视程度。苏姿丰在演讲中多次强调中国市场的重要性:AMD在华已超过30年,大中华区主要研发中心拥有超过4000名工程师,并在四地设立了AI卓越中心;今年恰逢其上海研发中心成立二十周年。
AMD在中国所阐述的方向具有明确的针对性:端侧推理、开放生态、本地部署。这三个方向,恰恰对应了中国市场一些具体的现实约束和需求。
大会现场,AMD演示了一个医疗问诊场景:基于Ryzen AI Max的系统,包含病例采集、知识图谱、患者简报三个Agent协同工作,所有数据处理均在本地完成,演示过程中甚至切断了WiFi网络。Jack Huynh指出,中国的医疗法规严格要求患者数据不能上云,本地推理在这一场景下不仅是技术选择,更是合规前提。
阶跃星辰CTO朱亦博也表达了类似观点:本地AI无需持续联网,响应速度更快,且避免了向云端发送数据带来的隐私风险。他相信,未来将是端云协同的模式——本地模型处理高频、低延迟、隐私敏感的任务,而将复杂任务交由云端大模型处理,从而大幅降低Token成本。
清华大学电子工程系教授、无问芯穹发起人汪玉则提出了“物理AI”的方向。他指出,机器人、无人机等设备的感知-决策-控制回路,对延迟的要求在毫秒级,算力必须部署在设备本地。无问芯穹与AMD合作开发的物理AI推理框架RLinf,在GitHub上四个月内就获得了超过3300个Star,并被超过20家公司采用。汪玉提出了一个公式:AI生产力 = 智能规模 × Token生产效率 × Token价值转化。其中,“Token生产效率”——即每秒生成的Token数——直接与硬件和软件的协同优化相关,这也是AMD芯片在其平台上被重点优化的方向。
苏姿丰预测,到2030年,全球将有50亿人每日使用AI。Jack Huynh补充了一个对比:PC普及花了45年,互联网花了27年,智能手机花了15年,而AI的普及速度将远超以往任何技术。他透露,推理Token的需求在2026年上半年比2025年同期增长了惊人的20倍,推理成本正从一个纯粹的技术问题,演变为企业的战略资源问题。
AMD在上海这场大会上释放的信号可以归结为:AI产业的下一个增长点,正在从训练侧转向推理侧和端侧。算力将从集中的训练集群,散落到每一台设备、每一个工厂、每一个机器人中。在这个新阶段,单纯堆叠GPU数量不再是唯一答案,CPU的调度能力、软件栈的开放性、端侧部署的经济性,都成为同等重要的竞争维度。AMD所选择的路线——聚焦端侧推理、拥抱开放生态、推动本地部署——每一项都精准指向了当前市场领导者布局中相对薄弱的环节。两条技术路线无疑都拥有各自的市场空间,但推理侧和端侧市场的增长速度,将最终决定这条差异化路线能走多远、走多深。
