游乐游手机版
首页/AI教程/文章详情

OCP EMEA 2026 Open AI Fabric模块化光子交换MHS参考架构技术方案深度解析

时间:2026-06-18 16:18
基于OCPMHS平台,Lightmatter提出OpenAIFabric模块化光子交换参考架构,通过多层堆叠、激光热解耦、1024基数交换及开放软件栈解决AI互连瓶颈。目标将数据中心利用率从38%–43%提升至65%,大幅降低token成本与总拥有成本,推动光子互连标准化。

2026年4月底,在巴塞罗那的OCP EMEA大会上,Lightmatter公司生态系统发展负责人Bijan Nowroozi抛出了一个值得整个行业关注的新架构——"Open AI Fabric"。简单来说,这是一个基于OCP MHS(模块化硬件系统)平台的模块化光子交换参考架构,目标直指当前AI基础设施最头疼的互连瓶颈。通过开放标准加硅光子技术,这套方案试图大幅提升AI计算效率、压低token成本,顺带打破那些封闭的"围墙花园"。

\

AI基础设施的互连危机:效率与成本的双重挑战

先说一个让人有点尴尬的数据:目前数据中心的模型浮点运算利用率(MFU)只有38%到43%。换句话说,超过一半的计算资源其实是闲着的。导致这种浪费的因素很多,但通信开销稳稳地排在第一,后面还跟着链路抖动、性能不稳定这些老问题。整个AI行业其实陷入了一个矛盾——一边是AI带来的巨大价值(自动化、安全防护等等),另一边是高端AI能力和普通用户之间越来越大的鸿沟。而这条鸿沟的底部,恰恰就是AI基础设施的低效率和居高不下的成本。

\

\

从更宏观的角度看,AI计算的扩展路径呈现出一种分形模式:从晶体管到芯片,再到chiplet、板卡、机架,最终到集群和数据中心。但这条路径正在撞上物理定律的南墙。按照Rent法则,芯片的逻辑面积是二次方增长,而IO带宽只随芯片周长线性增长——计算能力跑得越来越快,IO能力却跟不上。与此同时,铜互连技术也在逼近极限。SerDes速率从112Gbps提到224Gbps、再提到448Gbps时,铜缆的信号传输问题越来越棘手。为了应对,不得不用更贵的主板材料(比如Megtron 9)、双轴电缆这些特殊技术,结果基础设施成本蹭蹭往上涨。当成本增速超过性能提升速度时,整个行业的效率就会陷入停滞。

传统解决方案的局限性与光子学的机遇

面对互连瓶颈,行业其实试了不少路子,但各有各的坑。传统可插拔光模块有面板密度瓶颈和高功耗的问题;共封装光学(CPO)虽然解决了电迹长度问题,但把敏感的激光光源直接暴露在ASIC产生的高温里,可靠性、可用性和可维护性(RAS)都大打折扣。

\

这时候,光子学被寄予厚望——高带宽、低延迟、低功耗,能突破铜互连的物理极限。但现实是,光子学行业本身也乱成一团:市场上超过50家公司做着各种优秀的光子技术产品,但大部分都是孤立的、一次性的解决方案,缺乏统一标准和规范。这种碎片化局面和服务器行业形成了鲜明对比——服务器行业也是50多家玩家,但大家遵从统一标准,构建了一个健康高效的生态系统。Lightmatter认为,光子学也该走这条路:通过开放合作和标准化来释放技术潜力。

Open AI Fabric:四大支柱构建开放光子基础设施

基于这个理念,Lightmatter联合了一帮志同道合的公司,在2025年底到2026年初启动了Open AI Fabric项目。核心目标很清晰:基于OCP MHS平台,开发一个开放、模块化、可扩展的光子交换参考架构——说直白点,就是给芯片时代做一个"USB接口"。

\

这个参考架构建立在四大支柱上,完全对齐IEEE 802.3和OIF的技术路线图,针对200G每通道的信令做了优化,并且充分考虑了向解耦式chiplet设计的转型。

1. 多层混合堆叠架构

Open AI Fabric提出了一种创新的多层混合堆叠方案——把下一代OAM(OCP翻跟斗模块)定义成一个混合3D堆叠,而不是传统的PCB。架构分成三个功能层:

  • 第一层(底层):实用RDL层,负责电源传输、接地、边带信号(I2C/GPIO)和PCIe控制。它把特定ASIC的凸点映射适配到标准的OAM引脚输出,给上层提供统一接口。
  • 第二层(中间层):高速数据中介层,处理所有超过100G的数据流量。采用任意到任意的光学网状路由,为模块化设计预留了空间。
  • 第三层(顶层):逻辑层,集成ASIC和HBM内存,专注计算任务。

这种分层架构天然地把内存流量按带宽需求做了分离:HBM内存保持本地低延迟访问;近内存处理(PNM)chiplet和高带宽闪存池可以利用光子中介层,打破邻近性约束;CXL内存则通过实用层路由,提供可扩展的低延迟访问。

2. 激光与ASIC的热解耦设计

一个关键创新是采用了OIF兼容的ELSFP(外部激光小尺寸可插拔)模块或XPO MSA技术,把激光光源和中央计算复合体做了物理和热隔离。这就解决了CPO技术最大的痛点——激光的热管理问题。传统CPO方案里,激光和ASIC封装在一起,ASIC的高温严重影响激光性能和寿命。而在Open AI Fabric架构中,激光被放在独立的ELSFP模块里,可以单独冷却,甚至支持液冷。而且ELSFP模块支持现场更换,系统可维护性大幅提升。

\

3. 高基数交换设计

为了降低token成本,高基数交换被列为核心设计原则之一。项目团队的目标是实现1024基数的交换能力,每通道速率超过400Gbps。为了支撑这个目标,系统托盘的布局做了全面优化:前面板采用模块化设计,允许用户按需选择连接器类型(包括XPO和非XPO);定义了ELSFP模块的标准安装位置和冷却方式;为光学shuffle预留了标准安装空间;还规范了电缆路由、连接器类型、损耗要求等一堆细节。

\

特别值得一提的是,团队正在开发背板盲配光纤连接器技术——这是个很难攻克的难题,但一旦搞定,系统设计会更灵活,支持全前向访问或后向访问等多种部署模式。

4. 全栈开放与互操作性

Open AI Fabric不只是搞硬件,它还致力于构建一个完整的开放软件栈。架构支持SAI(交换抽象接口),实现软件定义控制,为横向扩展的互操作性和纵向扩展的低延迟提供了统一的编程接口。同时,它充分利用了Open Chiplet Economy的成果,定义了开放芯片管理接口(OCMI),支持boot、地址转换、系统管理和安全等功能。物理层则支持多种chiplet间通信协议,包括UCle、BoW、I3C/I2C等。

\

这种分层互操作性设计确保了平滑升级路径:今天可以用铜高速IO,未来无缝迁移到光子中介层,无需重新设计ASIC或修改实用层。

系统级影响与经济效益

Open AI Fabric带来的改变是全方位的。技术层面,它同时解决了多个老矛盾:CPO保证了200G信号的完整性,ELSFP缓解了CPO对激光的热影响;前面板实现最大光纤密度,同时高故障率的激光组件保持热插拔能力;架构既满足纵向扩展的低延迟需求,又保留了标准以太网横向扩展的灵活性。

\

经济层面更直接。根据演讲中给出的数据,这套架构有望把数据中心MFU从38%–43%提升到65%左右。这个提升直接转化为token成本的大幅下降,进而形成一个良性循环——更便宜的token刺激更多需求,更大规模又进一步降低成本。此外,系统层数能减少40%以上;每千瓦功率支持的计算密度提高200倍;平均无故障时间(MTBF)提高5倍。这些叠加起来,将显著降低AI基础设施的总拥有成本(TCO)。

标准化计划与行业合作呼吁

目前项目正在快速推进。团队计划近期发布一份愿景白皮书,随后启动交换机和计算平台的基础规范制定。目标是在2026年第三季度完成面向公众评审的AI开放交换基础规范草案。为了确保开放性和广泛适用性,项目团队正积极寻求与多个标准组织(IEEE、OIF、SNIA等)的合作,在链路架构、激光技术、互连标准和系统集成等各层面实现协调统一。

\

演讲最后, Bijan Nowroozi向整个行业发出了合作呼吁。要解锁AI的全部潜力,需要构建更好的系统,而要构建更好的系统,就需要整合整个供应链的力量。项目团队特别需要机械工程、热工程和光学工程领域的专业知识支持。

结语

Open AI Fabric的提出,标志着AI光子互连技术从碎片化的单点解决方案向标准化、开放化的系统架构迈出了关键一步。它基于成熟的OCP MHS平台进行创新,既最大限度地保护了现有投资,又为未来技术升级预留了充足空间。随着AI模型规模不断增长、应用场景不断拓展,互连瓶颈将成为制约行业发展的关键因素。Open AI Fabric为解决这个问题提供了一个清晰、可行的路线图。如果能获得行业的广泛采纳和支持,它很有希望成为下一代AI基础设施的标准,推动AI技术走向更高效、更普惠的方向。

来源:https://cloud.tencent.com.cn/developer/article/2692393
上一篇InnoDB索引结构深入剖析:B+树与回表机制底层逻辑 下一篇AI时代同城外卖智能推荐客服调度技术演进
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
Windows Docker Desktop RabbitMQ生产级部署完整指南
AI教程 · 2026-06-29

Windows Docker Desktop RabbitMQ生产级部署完整指南

前言 在 Windows 本地开发环境中,直接安装 RabbitMQ 确实颇为周折:需要单独配置 Erlang 运行环境、手动管理环境变量、服务启停全凭手工操作。更令人困扰的是,版本兼容冲突、端口占用、环境不一致等问题层出不穷。笔者见过不少开发者为搭建环境就得耗费整整半天时间。 相比之下,借助 Do

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践
AI教程 · 2026-06-29

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践

先分享一个切实感受。过去两年,我们与福建制造企业合作较为频繁,发现一个非常突出的现象:超过80%的企业官网,产品参数仍然存放在PDF或图片中。AI爬虫?根本无法抓取。这些企业技术实力不弱、资质证照齐全、应用案例也丰富,但在AI搜索这一全新战场上,它们几乎处于隐身状态。 一、一个正在发生的行业变化 A

阿里云Token Plan团队版功能价格与省钱购买指南
AI教程 · 2026-06-29

阿里云Token Plan团队版功能价格与省钱购买指南

阿里云百炼近期推出了名为“Token Plan 团队版”的全新服务,这一服务专为企业与开发者量身打造,定位为AI大模型订阅平台。通过引入Credits作为统一计量单位,将文本生成、图像生成等多模态AI能力纳入单一计费体系,同时无缝兼容主流AI编程工具及智能体(Agent)生态系统。其核心亮点包括:全

阿里云物联网.NET Core客户端位置信息上报
AI教程 · 2026-06-29

阿里云物联网.NET Core客户端位置信息上报

阿里云物联网平台的位置服务并非一个完全独立的功能模块。位置信息可包含二维坐标与三维坐标,而位置数据的来源本质上是借助设备属性进行上传。换言之,若要让设备上报位置,您需先将其视为一个普通属性进行处理。 1)添加二维位置数据 操作过程十分简洁。进入数据分析 → 空间数据可视化 → 二维数据,点击添加,将

年阿里云服务器选型配置与网站部署全攻略
AI教程 · 2026-06-29

年阿里云服务器选型配置与网站部署全攻略

2026年,阿里云服务器生态已高度成熟,形成了清晰的轻量应用服务器与ECS云服务器两大产品阵营。无论你是计划搭建个人博客、企业官网,还是运营电商平台、进行应用开发,基本都能找到理想的解决方案。本指南将从服务器选型、配置选择、部署流程到安全运维,系统梳理2026年最实用的操作要点,帮助你少走弯路,让网