今天要聊的这个事儿,在AI算力圈子里炸开了锅。Graphcore正式发布了他们的第二代IPU产品,配套的还有一款叫IPU-M2000的刀片式计算单元。先直接抛几个核心信息:性能提升巨大,扩展性极强,而且已经进入了可商业部署的阶段。

咱们先仔细看看这个IPU-M2000。它是个1U标准厚度的刀片机,即插即用,里头装的是Graphcore自研的7纳米Colossus™ 第二代GC200 IPU。别小看这个1U的小盒子,它能提供1个PetaFlop级别的机器智能算力,而且网络互联部分是为AI横向扩展专门优化过的。配上Poplar™软件栈,部署和维护都挺省心。
Graphcore第二代Colossus™ IPU处理器:GC200
Graphcore IPU-M2000
它能搭成什么规模的系统?答案是IPU-POD64。这是Graphcore新推出的模块化机架方案。从小到一两个机架,大到上千个IPU-POD64组成的数据中心集群,都能灵活扩展。一句话总结:从本地计算到超大规模AI设施,这套方案全给覆盖了。
Graphcore的CEO Nigel Toon对此说得挺直白:M2000和POD64的推出,进一步巩固了他们在机器智能领域的竞争优势。在他看来,这些技术创新带来的性能,正是客户最需要的。特别是对那些正在考虑把机器智能算力放进数据中心的客户,M2000在算力、扩展性和易用性上,确实提供了一个很有诱惑力的选项。
关键问题是:老用户怎么办?Graphcore保证,基于第一代IPU(Mk1)开发的模型和系统,可以直接迁移到二代(Mk2)上,无缝运行。而横向一看,性能直接来了个8倍提升。要知道,Mk1本身已经处于当时的第一梯队了,这样的进化幅度,放到硬件圈子里已经是妥妥的跨越式迭代了。
Mk1 IPU产品与Mk2 IPU产品性能对比
再往大了看,IPU-M2000的设计允许用户通过IPU-POD™配置,向上搭建包含多达64,000个IPU的数据中心系统,总算力能达到16 ExaFlops。无论是对付最复杂的模型训练,还是大规模的生产部署,这套东西都能吃得下。
支撑这套系统互联的,是Graphcore自研的IPU-Fabric™技术。这项技术专为机器智能通信从头设计,提供了一套低时延的专用互连结构,能在整个数据中心内高效连接IPU。
Graphcore IPU-Fabric™技术
软件层也没落下。他们的Virtual-IPU软件和作业管理模块,能让多个用户轻松共享训练和推理服务,资源也能根据需求动态调整。
不管你是只用一颗IPU,还是用上千颗IPU来跑任务,Graphcore的Poplar SDK都能让这个过程简化不少。你只管继续用你熟悉的框架,比如TensorFlow或PyTorch。Poplar拿到这个高层描述后,会自动构建出包含计算、数据和通信的完整计算图,然后在IPU硬件上编译优化,生成一套管理计算、存储和通信的运行时程序。
怎么做到的呢?核心是三大技术突破,直接决定了这套系统的行业领先性能:
· 计算:每个IPU-M2000的核心,就是那颗Graphcore Colossus™ Mk2 GC200 IPU。基于台积电7纳米工艺,芯片面积823平方毫米,塞进了超过594亿个晶体管。这个密度,足以让它在“最复杂处理器”的榜单上占据一席之地。
· 数据:每个IPU都配备了庞大的In-Processor Memory™。Mk2 GC200在处理器内部集成了史无前例的900MB超高速SRAM,每个计算核心旁边都直接贴着大量RAM,目的是让每个bit的数据访问都消耗最低的能量。针对更大的模型,Poplar软件还能通过Exchange-Memory™通信技术,让IPU访问Streaming Memory™,这套组合拳足以支撑拥有数千亿个参数的巨型模型。单台IPU-M2000的Exchange-Memory™密度最高可达450GB,总带宽更是跑到了前所未有的180TB/秒。
· 通信:IPU-M2000内置了专为AI联网设计的IPU-Fabric™。为此他们还开发了全新的GC4000 IPU-Gateway芯片,时延低到令人发指,带宽高到惊人。单台M2000就能提供2.8Tbps的互连带宽。更关键的是,当系统从几十个IPU扩展到成千上万个IPU时,这条Fabric上的通信时延几乎保持恒定,不动如山。
Graphcore高级副总裁兼中国区总经理卢涛对这个组合拳的评价很干脆:把强劲的算力和强大的网络能力结合在一起,意味着他们能去处理全球最先进的算法模型。他认为,这对中国本土的AI算法落地,比如云计算、互联网、通信这些场景,都会产生实质性的推动,给整个AI产业带来巨大的价值。
还有一个值得关注的点:在中国市场,Graphcore的早期合作已经展开。基于IPU的开发者云在7月初已经上线,IPU-POD产品技术也在云上开放访问。这很可能意味着,中国将成为Graphcore第二代IPU技术最先实现商业化落地的区域之一。
当然,这些动作只是Graphcore在中国市场深度投资的一部分。他们在本地已经组建了强大的工程团队,目的就是和本地的AI从业者与创新者紧密合作。说白了,就是用最先进的芯片技术,助推中国的AI创新。
