人工智能技术提升数据中心效率的实用方法
类型:热点整理2026-07-01
AI如何重塑数据中心:不只是自动驾驶 关于人工智能的未来,大部分讨论都集中在自动驾驶汽车、智能聊天机器人、数字孪生、机器人,以及那些能从海量数据中提取商业洞察的“智能”系统上。但有一个领域,AI和机器学习可能正在悄悄酝酿一场更接地气、也更深刻的变革——那就是企业数据中心内部那些不起眼的服务器机架。
AI如何重塑数据中心:不只是自动驾驶
关于人工智能的未来,大部分讨论都集中在自动驾驶汽车、智能聊天机器人、数字孪生、机器人,以及那些能从海量数据中提取商业洞察的“智能”系统上。但有一个领域,AI和机器学习可能正在悄悄酝酿一场更接地气、也更深刻的变革——那就是企业数据中心内部那些不起眼的服务器机架。

那么,AI具体能在哪些方面帮数据中心“降本增效”,甚至拓展业务边界?从当前的市场实践来看,其潜力主要集中在四个方向:电源管理、设备管理、工作负载管理、以及安全性。
先来看电源管理:基于AI的系统能够更精细地优化加热和冷却系统,直接降低电力成本,同时也能减少运维人员数量。施耐德电气、西门子、Vertiv和伊顿公司是这个领域的代表性玩家。
再看设备管理:AI可以像一位不知疲倦的体检医生,持续监控服务器、存储和网络设备的“健康状况”,检查配置是否正确,甚至预测设备何时可能出故障。Gartner将这类供应商归类到AIOps IT基础设施管理(ITIM)之下,代表公司包括OpsRamp、Datadog、Virtana、ScienceLogic和Zenoss。
工作负载管理则更加动态:AI系统能根据实时情况,自动将工作负载迁移到最高效的基础设施上,不管是在数据中心内部,还是在混合云环境的不同站点之间。除了像Redwood、Tidal Automation和Ignio这样的专业公司,思科、IBM和VMware这些传统巨头也在布局。
最后是安全性:AI工具可以“学习”什么是正常的网络流量,然后敏锐地发现异常,并对海量告警进行优先级排序。它不仅能帮助安全人员事后复盘,还能为修补安全漏洞提供建议。Vectra AI、Darktrace、ExtraHop和思科都在提供这类能力。
总的来说,AI的终极目标是帮助企业打造一个高度自动化、自我修复的数据中心,它几乎不需要人工干预,却能以极高的效率和弹性运行。就像戴尔技术公司全球CTO办公室的杰出工程师Tabet所说的:“AI自动化可以将人类的能力扩展到前所未有的高度,用来解读数据,收集优化能源使用、分配工作负载和最大化效率所需的洞察,最终实现更高的数据中心资产利用率。”
当然,就像自动驾驶汽车的承诺一样,“自动驾驶数据中心”也还没有真正到来。在数据中心里,还横亘着不少技术、运营和人员上的障碍。目前,相关技术的采用才刚刚起步。但潜在的好处是巨大的,这会让企业持续寻找行动的机会。
电源管理:从“省电”到“智能调控”
全球数据中心大约消耗了3%的电力供应,同时贡献了约2%的温室气体排放。所以,无论是为了省钱还是为了环保,电源管理都成了企业认真研究的课题。
451 Research的高级分析师Daniel Bizo指出,AI系统可以帮助数据中心操作员了解当前或潜在的冷却问题,比如由于高密度机柜堵塞气流、HVAC装置性能不佳,或者冷热通道密封不严导致的冷空气供应不足。他形容,AI能带来的好处“远不止好的设施设计”。在数据中心层面,AI系统“可以通过关联暖通空调系统数据和环境感知读数来学习设备”。
IT咨询公司StorageIO的创始人Greg Schulz也认为,“电源管理是一个比较容易看到成果的领域。”在今天,谈论电源管理,本质上是在谈论生产力——如何用更少的能源完成更多的工作。这要求设备工作得更智能。
这也涉及容量规划。除了寻找热点和冷点,AI系统还能确保数据中心为足够数量的物理服务器供电,并且在需求临时激增时,能够自动启动(和关闭)新的物理服务器。
更智能的联动也正在发生。Schulz补充说,电源管理工具正在开发与设备和工作负载管理系统的接口。例如,如果传感器检测到某台服务器过热,系统可以迅速将工作负载转移到未被充分利用的服务器上,以避免关键应用中断。随后,系统再调查服务器过热的原因:可能是风扇故障,可能是组件即将崩溃,或者仅仅是因为过载了。
健康监控:从“定期巡检”到“主动预测”
数据中心充满了需要定期维护的物理设备。AI系统则能超越“定期”的范畴,通过持续收集和分析遥测数据,来确定哪些区域需要立即关注。用Schulz的话说,“AI工具能嗅出所有这些数据中的模式和异常点。”
Bizo进一步解释,“健康监测从检查设备配置是否正确、性能是否符合预期开始。”对于有成百上千个机柜和数万个组件的数据中心来说,这些平凡的工作是劳动密集型的,因此很难总是及时、彻底地完成。基于大量传感器数据构建的预测性故障模型,可以“发现一个即将出现的组件或设备故障,并评估它是否需要立即维护,以避免任何可能导致服务中断的容量损失。”
Juniper Networks负责企业和云营销的副总裁Michael Bushong认为,企业数据中心运营商应该忽略围绕AI的过度宣传,专注于他所说的“无聊的创新”。他直言,虽然AI系统有朝一日可能会直接告诉你问题出在哪里并解决它,但在现阶段,很多数据中心运营商会更满意于:“如果出了问题,请告诉我去哪里看。”
依赖关系映射是另一个有用但并不“性感”的领域。数据中心经理在修改防火墙或其他设备的策略时,最担心的就是产生意想不到的连锁反应。AI可以提前计算出一个变化的“爆炸半径”,帮助运维人员做出更稳妥的决策。
保持设备平稳运行的另一个关键是控制“配置漂移”——这是指随着时间推移,临时的配置变更可能引发问题。AI可以作为一个“额外的安全检查”,来识别基于配置的、即将发生的数据中心问题。
安全与工作负载:AI的两大前沿阵地
在安全方面,Bizo认为,AI和机器学习“可以通过对事件进行快速分类和聚类来简化事件处理,从而将重要事件从噪音中分离出来”。更快的根因分析能帮助操作员做出明智的决策并采取行动。
Schulz补充说,AI在实时入侵检测中特别有用。基于AI的系统可以检测、阻止并隔离威胁,然后还能进行取证调查,弄清楚发生了什么、黑客利用了哪些漏洞。在安全操作中心,安全专业人员经常被过多的警报淹没,而AI系统可以扫描海量的遥测和日志数据,清除日常任务,让安全专家能腾出精力做更深度的调查。
在工作负载层面,AI的潜力在于自动将工作负载移动到最合适的位置,无论是在本地还是在云端。AI/ML未来应该能根据性能、成本、治理、安全、风险和可持续性等众多指标,实时决定在哪里放置工作负载。例如,工作负载可以被自动移到最节能的服务器上,同时确保服务器运行在70-80%的最高效利用率区间。Bizo说,AI还可以将性能数据整合进去,让时间敏感的应用程序运行在高效服务器上,而无需快速执行的应用程序则不会消耗过多能量。
这个领域甚至引起了麻省理工学院研究人员的注意,他们去年就宣布开发了一个能自动学习如何在数千台服务器上调度数据处理操作的AI系统。但正如Bushong所指出的,现实是,如今的工作负载优化更像是亚马逊、谷歌和Azure这类超大规模公司的专利,而非普遍企业数据中心能轻松实现的。
挑战:人才、文化与信任
优化和自动化数据中心,是正在进行的数字化改造计划的一部分。戴尔的Tabet认为,“借助COVID-19,许多公司现在都在寻求进一步的自动化,推动AI驱动、能够自我修复的‘数字数据中心’的理念。”
谷歌在2018年就宣布,已将数个超大规模数据中心的冷却系统控制权交给了AI程序,并报告说能源使用量减少了40%。但Bizo认为,对于那些名字不叫谷歌的公司来说,在数据中心使用AI“在很大程度上还是一种理想”。一些AI/ML功能已在事件处理、基础设施运行状况和冷却优化中间出现,但要让AI/ML模型取得比目前标准数据中心基础设施管理更明显的突破,还需要很多年。这类似自动驾驶汽车的发展:早期阶段很有趣,但距离其承诺的碘伏性经济/商业案例还很远。
Tabet指出,一些障碍是“需要雇佣或培训合适的人员来管理系统”,以及“数据标准和相关体系架构的需要”。Gartner也给出了类似的判断:AIOps平台成熟度、IT技能和运营成熟度是主要的阻碍因素。高级部署面临的挑战还包括数据质量,以及IT基础设施和运营团队缺乏数据科学技能。
但Bushong认为,最大的障碍始终是人。外部招聘数据科学家对很多企业是挑战,内部培训现有员工也是障碍。更重要的是,员工对技术的抵触由来已久。他举例说,软件定义网络已经存在了十年,但仍有超过四分之三的IT运营仍由命令行驱动。
“我们必须相信,各种基础设施的运营商准备把控制权让给AI,”Bushong表示,“如果一群人还不相信空管员能做出决定,那么你怎么训练、教育和安慰一群人,让他们做出如此重大的转变呢?”行业里普遍存在的态度是:“如果我这么做,我就会失业。”
正因如此,Bushong建议企业在AI方面,不妨从那些小而乏味的步骤开始,而不是陷入围绕新技术的炒作。可以这么说,在数据中心,AI的真正价值可能藏在那些最不引人注目的角落。