现如今,人工智能的风头似乎已经盖过了云技术。但我们说“AI无所不在”,绝不只是指数据中心里跑着算法模型,或者会写Python的工程师又写了几个新功能——而是它已经渗透到日常生活的每个角落:超市里巡游的导购机器人,机场里用卷积神经网络识别可疑行为的安防摄像头,壁炉罩上静静等待指令的亚马逊Alexa,甚至我们牛仔裤兜里那个总在推荐寿司店的Siri。每一个场景的后面,都是一套实实在在的计算系统在运转。

AI之所以能这么快进入我们的生活,是因为它们不像传统程序那样死板:它们的工作原理并不神秘——通过大量的训练,这些系统能从经验中学习,并把学到的东西灵活应用到新的场景里。换句话讲,它们像人一样工作,甚至还会自动适应环境的变化。无论是超市里目光略显空洞的机器人,还是领我们去酒吧的性感女声导航,背后的功能都依赖那些搭载了CPU或GPU的硬件系统,比如英伟达的DGX系列。
AI的应用五花八门,指望用一种硬件通吃所有场景显然不现实。正如英特尔Na veen Rao所说:“AI应用并非只有一种,客户发现没有所谓的‘最好’平台能适用于所有AI应用。”但不管最终选择的是哪种芯片、哪套系统,有一点是毋庸置疑的——每一台处理设备,都需要电力。
昂贵的数据
对于IT经理来说,要准确计算一台服务器机架所需的电力,AI的影响就是一个绕不过去的新变量。一个普通的服务器机架,平均功耗大约为7kW;而一旦跑上了AI应用,这个数字可能直接飙升到30kW以上。原因很简单:AI应用程序会让处理器利用率变得非常高——尤其是GPU类服务器,每个芯片的功耗几乎翻番。要想系统稳定运行,供电能力就必须跟上。
当然了,如果现在机柜的功率不够,有些人可能会想到“搬家”:把数据迁移到别处去处理。但这里有一个常被忽略的坑:迁移数据本身,往往比处理数据还要费电。因为数据在传输过程中,网络设备、存储设备、服务器全都在持续耗电。简单说,数据“活动”的成本非常高。
举一个例子:虽然市面上有AWS、Azure、Google等各种云服务商,但复杂的数据传输产生的隐性成本,是很多企业都会踩到的坑。因此,一个更合理的思路不是把数据搬到计算中心,而是让计算靠近数据源——这正是边缘计算兴起的原因。
小网络解决大问题
边缘计算还有一个更大的远景——它被认为是5G数据技术的一个重要基石。5G网络要实现1ms的超低时延,就必须依赖大量分布式的处理节点,也就是我们常说的“边缘网络”。这些边缘服务器要部署在离用户足够近的地方:比如要处理4K甚至8K高清视频的个体身边,或是智慧城市里监控行人与交通动态的摄像头旁边。在这些场景下,把数据一股脑儿全发回云端处理,既不现实也不划算。
另外,无人驾驶汽车也离不开边缘网络的支持。这些新型数据应用的共同特点,是要求接近实时的AI信息处理。不能等,不能卡,这是基本门槛。
目前,所有的AI应用都跑在基于硅的计算硬件上——可能是智能手机里的定制芯片,可能是边缘计算服务器里的FPGA,也可能是通过公有云才能访问的专用AI系统(比如英伟达DGX)。
而这些硬件,无一例外都需要供电。不管是用电池(直流电)还是插市电(交流电),都离不开电力;系统与系统之间,也得靠铜线或光纤连接,才能完成数据通信。
掉电是AI面临的最大威胁
AI对人类的价值看起来前所未有的高。但有意思的是,一旦掉电,它就会瞬间崩溃、停止工作——就像超人遇到氪石一样。所以,要想让AI躲开“掉电”这颗氪石,降低系统崩溃的风险,最根本的办法还是要确保持续、可靠的供电。
对于那些需要接近实时处理的AI应用来说,带有Per Outlet Power Sensing(检测每个插座电力)功能的交换式PDU(配电单元),能够让边缘数据中心的运行时间最大化。在交通信号控制、消防站、城市应急响应等场景中,AI服务器必须搭配可靠的PDU,才能保证救护车、消防车和执法部门的数字通信系统畅通无阻。
图1:Server Technology公司的交换式PDU。
在这些关键任务面前,智慧城市需要的是能远程监控、管理的智能电力设备。利用数据中心PDU,可以实时监测机柜的温度和环境条件,提前防患于未然。
而对于传统数据中心和主机托管设施来说,用GPU系统取代基于CPU的服务器将成为趋势。当需要更大的C13和C19插座组合时,可扩展的机架式PDU就能派上用场——它完全支持30kW的高密度机架。
信息革命源于技术进步
信息说到底是为了辅助决策。而最开始,信息是靠口头传递的。直到1846年Royal Earl House发明了电报打印系统,信息收集才第一次需要“摇手柄”来提供电力。从那一刻起,电力和信息处理就再也分不开了。
如今,世界上处理能力最强的超级计算机是橡树岭国家实验室的Summit。它用了近3万个高性能图形处理器运行深度学习算法,每秒运算能力达到10亿亿次,目标之一就是帮助我们解决气候变化问题。我们正在迈入一个全新的历史时期,人工智能将彻底改变我们的生活——但前提是,先为AI供上电。选择可扩展、可靠的电源,是顺利实现AI功能的关键一环。
