Meta自研CXL芯片复用退役DDR4降低AI服务器成本25%

时间：2026-07-03 12:26

Meta自研Vistara芯片：让DDR4内存重获新生，AI推理服务器成本降低25% 近日，Meta公开发布了一篇技术论文，详细介绍了其自主研发的一款名为Vistara的CXL ASIC芯片。简单来说，它的核心目标非常务实：将退役服务器上的DDR4内存重新整合到最新支持DDR5内存的AI服务器中，使

Meta自研Vistara芯片：让DDR4内存重获新生，AI推理服务器成本降低25%

近日，Meta公开发布了一篇技术论文，详细介绍了其自主研发的一款名为Vistara的CXL ASIC芯片。简单来说，它的核心目标非常务实：将退役服务器上的DDR4内存重新整合到最新支持DDR5内存的AI服务器中，使其继续发挥作用。最终成果是，不仅延长了内存硬件的物理使用周期，还在部分AI推理业务场景下，使所需服务器数量最高减少了25%——这直接意味着硬件采购成本最多可降低25%。

这个方案表面上看只是内存资源的二次利用，但其背后折射出的是Meta对CXL（Compute Express Link）生态系统的深度布局，更关键的是，它标志着AI时代的数据中心基础设施正在从单纯的“算力竞争”转向更深层次的“系统架构竞争”。

问题：AI服务器升级，DDR4却成了“鸡肋”

AI服务器的迭代速度近年来几乎可以用“光速”来形容，从DDR4内存平台到DDR5内存平台的切换就是最典型的例证。像基于英特尔Xeon 6、AMD Turin以及最新AI GPU平台的新一代服务器，已经全面拥抱DDR5。与此同时，大量上一代服务器仍然配备着DDR4内存。

这里有一个很尴尬的现实：服务器通常5到7年就会退役，但服务器级的DRAM芯片物理寿命却能达到10到14年。也就是说，大量性能依然可靠的DDR4内存，会因为服务器退役而直接被闲置甚至报废——这简直是硬件界的“浪费典范”。

Meta在论文中毫不讳言：它在全球拥有数百万台服务器，其中大约40%的服务器受限于内存容量，已无法再承载新的AI工作负载。另一边，又有海量的DDR4内存处于“空转”状态。如果强行把旧DDR4内存装到新服务器上，又会因为带宽低、延迟高，严重拖累整体性能。更何况，在服务器内存芯片紧缺、价格飙涨的大背景下，这种浪费对于一家每年资本支出高达数百亿美元的互联网公司来说，无异于在烧钱。

解法：自研Vistara ASIC，让DDR4重新“上岗”

为了解决这个矛盾，Meta的思路非常直接：利用CXL技术，把退役服务器中的DDR4 DIMM挂载到新服务器上，作为扩展内存。这样就能实现近乎零成本的容量扩展（靠复用）、性能提升（更大内存）以及降低碳足迹（延长硬件寿命），最终提升整体运营效率。

但Meta并没有直接采购现成的商业化CXL方案。原因在于，它认为市面上现有的方案存在三个核心痛点：

捆绑了DRAM与控制器，导致无法直接复用现有的DDR4 DIMM。
不支持DDR4，根本无法利用退役服务器里大量的DDR4资产。
功耗高、成本高，不适合超大规模数据中心部署。

所以，Meta的决定很干脆：自己设计一颗专用的CXL内存扩展ASIC，命名为Vistara。这颗芯片就是专门为复用DDR4 DIMM而生的。

根据论文披露的信息，Vistara的核心作用非常清晰：通过符合CXL 2.0/1.1标准的PCIe Gen5 x16接口，把DDR4内存转换为CXL内存资源，供给最新的DDR5服务器直接调用。它的主要技术特点包括：

兼容CXL 2.0/1.1协议
支持PCIe Gen5 x16
集成两个72-bit DDR4内存通道
支持最高DDR4-3200
单颗ASIC最高可连接256GB DDR4（采用64GB DIMM）
支持RS(36,32)，2-symbol correction，x4 chip-kill内存纠错
延迟约等于50ns
内置三颗RISC-V处理器，负责安全、控制、引导启动
接口支持CCI、SMBus、PCIe固件更新
单颗ASIC功耗约9瓦

核心功能可以概括为：通过PCIe Gen5 x16接口和CXL 2.0协议，将旧的DDR4内存转换为新服务器可直接调用的共享内存池。每颗Vistara芯片支持两个DDR4通道，最高可挂载256GB内存，功耗仅约9W。简单来说，Vistara就是一座桥梁，连接了DDR4和当前基于DDR5的AI服务器，让原本只能用于老服务器的DDR4内存，重新成为AI服务器可以访问的共享资源。

不只是扩容：更是建立共享内存池

相比传统服务器“每台机器独占内存”的架构，Meta的CXL ASIC方案更进一步，它构建了一套基于CXL的共享内存池（Memory Pool）。论文中给出了一个具体的部署案例：在一台部署了两颗Vistara芯片的MemServer平台中，可以将768GB的DDR5本地内存与256GB的DDR4扩展内存通过CXL连接整合，最终实现总计1TB的内存容量，而CXL扩展部分的总功耗仅约50W。

在性能上，Vistara的CXL内存峰值带宽约为48GB/s，空闲延迟约250ns，这远远低于本地DDR5的614GB/s和130ns。但论文特别指出，在实际生产环境中，CXL带宽利用率通常低于10%——因为软件栈只会把“冷数据”放在CXL内存上，绝大多数热点访问仍然会命中本地DRAM。因此，带宽和延迟的差距对实际性能影响微乎其微。

Meta认为，这种架构的最大优势在于：不同的AI任务可以按需动态共享内存，而不是提前为每台服务器预留大量冗余容量。对于大语言模型推理而言，许多请求并不会长期占满全部内存，动态共享可以显著提升整体利用率。

透明分层：应用无感

自研的Vistara芯片只是硬件基础，Meta还基于Linux内核的TPP（透明页面放置）和TMO（透明内存卸载）机制，构建了一套自动化的内存分层系统。这套系统可以实时追踪每个内存页面的访问频率。热页（被CPU频繁访问的内存页面）会自动保留在本地DDR5，而冷页（被CPU很少或极少访问的内存页面）则会静默迁移到CXL上的DDR4。整个过程对上层应用完全透明，无需修改任何代码。

论文特别强调，此前学术界一直担心TPP机制会带来较大的CPU开销。但Meta在生产环境中的实际测试显示，TPP的CPU开销不到0.5%，远低于预期。Vistara的尾延迟表现也相当稳定，并未出现此前FPGA测试中报告的那种不稳定的现象。对于延迟敏感型工作负载，Meta还提供了基于cgroup的灵活“退出机制”，允许特定任务直接禁用CXL内存，确保关键业务不受影响。

成果：AI推理服务器最高可减少25%

论文显示，Vistara是Meta首款软硬件协同设计的CXL内存扩展平台，目前已在百万级服务器规模的生产环境中部署，覆盖了缓存、数据仓库、ML推理、开发基础设施等多样化的工作负载。实际效果相当亮眼：

缓存服务
- CacheA服务：缓存容量从680GB扩至890GB，持续QPS提升33%，缓存对象的保留时间从1分钟延长到5-10分钟。
- CacheB服务：平均查询延迟降低了29%，2.3%的缓存命中从闪存转移到了内存，有效延长了SSD寿命。
数据仓库（Spark等）
- Spark执行器密度提升33%，OOM（内存溢出）事件减少33%。
- Cosco分布式Shuffle服务：计算容量降低30%，但MIPS反而提升了11%。
开发基础设施（DevInfra）
- 每台物理服务器可运行的开发者虚拟机数量增加33%，整体服务器需求减少15%。这意味着在同等开发效率下，硬件采购成本显著降低。
ML参数服务器
- 在5.1TB生产级推荐模型的推理服务中，服务器需求减少25%，吞吐量提升4%。
- 当模型规模扩展到20TB时，吞吐量提升达4-12%，服务器需求持续减少20-25%。

结论：数据中心竞争进入“系统架构时代”

Vistara方案的核心价值，绝不仅仅是省了几颗内存条的钱。它在更深层次上说明了两个重要趋势。

第一，CXL技术的规模化验证。 CXL标准问世已经有六年了，业界一直缺乏大规模生产部署的实证数据。Meta用百万级服务器的真实场景证明，CXL内存分层在工程上是可行的、可靠的，而且收益显著。学术界关于CXL尾延迟和TPP开销的担忧，被生产数据一一反驳。

第二，超大规模云厂商正在成为芯片设计的主角。 Vistara不是一颗通用的芯片，而是围绕Meta特定的基础设施需求——最大化复用DDR4资产，来量身定制的产物。这种“工作负载定义芯片”的模式，正在成为微软、谷歌、亚马逊等云巨头的共同选择。

从更宏观的视角看，Vistara折射出AI时代数据中心设计理念的根本转变：资源正在从“整机绑定”走向“解耦池化”。CPU、GPU、内存、存储不再需要同步淘汰、同步升级，而是可以通过CXL这类开放互联技术，形成可按需调度的独立资源池。这不仅能延长硬件生命周期，更能从根本上提升基础设施的投资回报率。

未来的数据中心竞争，已经不仅仅是算力峰值性能的比拼，更是系统架构、互联技术与资源管理能力的综合较量。Meta的Vistara，为这场竞赛写下了一个务实而有力的注脚。

来源：https://www.163.com/dy/article/L0QP8ET60511838M.html

AI服务

上一篇iPhone Ultra你必须知道的九个核心要点一文详细整理 下一篇苹果将推M6/M7芯片入门级MacBook Pro

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。