Meta自研Vistara芯片:让DDR4内存重获新生,AI推理服务器成本降低25%
近日,Meta公开发布了一篇技术论文,详细介绍了其自主研发的一款名为Vistara的CXL ASIC芯片。简单来说,它的核心目标非常务实:将退役服务器上的DDR4内存重新整合到最新支持DDR5内存的AI服务器中,使其继续发挥作用。最终成果是,不仅延长了内存硬件的物理使用周期,还在部分AI推理业务场景下,使所需服务器数量最高减少了25%——这直接意味着硬件采购成本最多可降低25%。
这个方案表面上看只是内存资源的二次利用,但其背后折射出的是Meta对CXL(Compute Express Link)生态系统的深度布局,更关键的是,它标志着AI时代的数据中心基础设施正在从单纯的“算力竞争”转向更深层次的“系统架构竞争”。
问题:AI服务器升级,DDR4却成了“鸡肋”
AI服务器的迭代速度近年来几乎可以用“光速”来形容,从DDR4内存平台到DDR5内存平台的切换就是最典型的例证。像基于英特尔Xeon 6、AMD Turin以及最新AI GPU平台的新一代服务器,已经全面拥抱DDR5。与此同时,大量上一代服务器仍然配备着DDR4内存。
这里有一个很尴尬的现实:服务器通常5到7年就会退役,但服务器级的DRAM芯片物理寿命却能达到10到14年。也就是说,大量性能依然可靠的DDR4内存,会因为服务器退役而直接被闲置甚至报废——这简直是硬件界的“浪费典范”。
Meta在论文中毫不讳言:它在全球拥有数百万台服务器,其中大约40%的服务器受限于内存容量,已无法再承载新的AI工作负载。另一边,又有海量的DDR4内存处于“空转”状态。如果强行把旧DDR4内存装到新服务器上,又会因为带宽低、延迟高,严重拖累整体性能。更何况,在服务器内存芯片紧缺、价格飙涨的大背景下,这种浪费对于一家每年资本支出高达数百亿美元的互联网公司来说,无异于在烧钱。
解法:自研Vistara ASIC,让DDR4重新“上岗”
为了解决这个矛盾,Meta的思路非常直接:利用CXL技术,把退役服务器中的DDR4 DIMM挂载到新服务器上,作为扩展内存。这样就能实现近乎零成本的容量扩展(靠复用)、性能提升(更大内存)以及降低碳足迹(延长硬件寿命),最终提升整体运营效率。
但Meta并没有直接采购现成的商业化CXL方案。原因在于,它认为市面上现有的方案存在三个核心痛点:
- 捆绑了DRAM与控制器,导致无法直接复用现有的DDR4 DIMM。
- 不支持DDR4,根本无法利用退役服务器里大量的DDR4资产。
- 功耗高、成本高,不适合超大规模数据中心部署。
所以,Meta的决定很干脆:自己设计一颗专用的CXL内存扩展ASIC,命名为Vistara。这颗芯片就是专门为复用DDR4 DIMM而生的。
根据论文披露的信息,Vistara的核心作用非常清晰:通过符合CXL 2.0/1.1标准的PCIe Gen5 x16接口,把DDR4内存转换为CXL内存资源,供给最新的DDR5服务器直接调用。它的主要技术特点包括:
- 兼容CXL 2.0/1.1协议
- 支持PCIe Gen5 x16
- 集成两个72-bit DDR4内存通道
- 支持最高DDR4-3200
- 单颗ASIC最高可连接256GB DDR4(采用64GB DIMM)
- 支持RS(36,32),2-symbol correction,x4 chip-kill内存纠错
- 延迟约等于50ns
- 内置三颗RISC-V处理器,负责安全、控制、引导启动
- 接口支持CCI、SMBus、PCIe固件更新
- 单颗ASIC功耗约9瓦
核心功能可以概括为:通过PCIe Gen5 x16接口和CXL 2.0协议,将旧的DDR4内存转换为新服务器可直接调用的共享内存池。每颗Vistara芯片支持两个DDR4通道,最高可挂载256GB内存,功耗仅约9W。简单来说,Vistara就是一座桥梁,连接了DDR4和当前基于DDR5的AI服务器,让原本只能用于老服务器的DDR4内存,重新成为AI服务器可以访问的共享资源。
不只是扩容:更是建立共享内存池
相比传统服务器“每台机器独占内存”的架构,Meta的CXL ASIC方案更进一步,它构建了一套基于CXL的共享内存池(Memory Pool)。论文中给出了一个具体的部署案例:在一台部署了两颗Vistara芯片的MemServer平台中,可以将768GB的DDR5本地内存与256GB的DDR4扩展内存通过CXL连接整合,最终实现总计1TB的内存容量,而CXL扩展部分的总功耗仅约50W。
在性能上,Vistara的CXL内存峰值带宽约为48GB/s,空闲延迟约250ns,这远远低于本地DDR5的614GB/s和130ns。但论文特别指出,在实际生产环境中,CXL带宽利用率通常低于10%——因为软件栈只会把“冷数据”放在CXL内存上,绝大多数热点访问仍然会命中本地DRAM。因此,带宽和延迟的差距对实际性能影响微乎其微。
Meta认为,这种架构的最大优势在于:不同的AI任务可以按需动态共享内存,而不是提前为每台服务器预留大量冗余容量。对于大语言模型推理而言,许多请求并不会长期占满全部内存,动态共享可以显著提升整体利用率。
透明分层:应用无感
自研的Vistara芯片只是硬件基础,Meta还基于Linux内核的TPP(透明页面放置)和TMO(透明内存卸载)机制,构建了一套自动化的内存分层系统。这套系统可以实时追踪每个内存页面的访问频率。热页(被CPU频繁访问的内存页面)会自动保留在本地DDR5,而冷页(被CPU很少或极少访问的内存页面)则会静默迁移到CXL上的DDR4。整个过程对上层应用完全透明,无需修改任何代码。
论文特别强调,此前学术界一直担心TPP机制会带来较大的CPU开销。但Meta在生产环境中的实际测试显示,TPP的CPU开销不到0.5%,远低于预期。Vistara的尾延迟表现也相当稳定,并未出现此前FPGA测试中报告的那种不稳定的现象。对于延迟敏感型工作负载,Meta还提供了基于cgroup的灵活“退出机制”,允许特定任务直接禁用CXL内存,确保关键业务不受影响。
成果:AI推理服务器最高可减少25%
论文显示,Vistara是Meta首款软硬件协同设计的CXL内存扩展平台,目前已在百万级服务器规模的生产环境中部署,覆盖了缓存、数据仓库、ML推理、开发基础设施等多样化的工作负载。实际效果相当亮眼:
- 缓存服务
- CacheA服务:缓存容量从680GB扩至890GB,持续QPS提升33%,缓存对象的保留时间从1分钟延长到5-10分钟。
- CacheB服务:平均查询延迟降低了29%,2.3%的缓存命中从闪存转移到了内存,有效延长了SSD寿命。
- 数据仓库(Spark等)
- Spark执行器密度提升33%,OOM(内存溢出)事件减少33%。
- Cosco分布式Shuffle服务:计算容量降低30%,但MIPS反而提升了11%。
- 开发基础设施(DevInfra)
- 每台物理服务器可运行的开发者虚拟机数量增加33%,整体服务器需求减少15%。这意味着在同等开发效率下,硬件采购成本显著降低。
- ML参数服务器
- 在5.1TB生产级推荐模型的推理服务中,服务器需求减少25%,吞吐量提升4%。
- 当模型规模扩展到20TB时,吞吐量提升达4-12%,服务器需求持续减少20-25%。
结论:数据中心竞争进入“系统架构时代”
Vistara方案的核心价值,绝不仅仅是省了几颗内存条的钱。它在更深层次上说明了两个重要趋势。
第一,CXL技术的规模化验证。 CXL标准问世已经有六年了,业界一直缺乏大规模生产部署的实证数据。Meta用百万级服务器的真实场景证明,CXL内存分层在工程上是可行的、可靠的,而且收益显著。学术界关于CXL尾延迟和TPP开销的担忧,被生产数据一一反驳。
第二,超大规模云厂商正在成为芯片设计的主角。 Vistara不是一颗通用的芯片,而是围绕Meta特定的基础设施需求——最大化复用DDR4资产,来量身定制的产物。这种“工作负载定义芯片”的模式,正在成为微软、谷歌、亚马逊等云巨头的共同选择。
从更宏观的视角看,Vistara折射出AI时代数据中心设计理念的根本转变:资源正在从“整机绑定”走向“解耦池化”。CPU、GPU、内存、存储不再需要同步淘汰、同步升级,而是可以通过CXL这类开放互联技术,形成可按需调度的独立资源池。这不仅能延长硬件生命周期,更能从根本上提升基础设施的投资回报率。
未来的数据中心竞争,已经不仅仅是算力峰值性能的比拼,更是系统架构、互联技术与资源管理能力的综合较量。Meta的Vistara,为这场竞赛写下了一个务实而有力的注脚。
