1、 数据中心物理基础设施有效维护 方案的特性 摘要 数据中心的维护工作正逐步走向基于状态的维护以及风险预防性的维护模式。然而,现今许多数据中心运营商仍在采用基于日历的维护模式。本白皮书讨论了在选择维护服务供应商时,需要着重关注哪些关键特性。此外,我们还详细描述了数据分析、数字化服务和互联互通的系统从日历维护模式向基于状态的维护模式演进。版本 1 第 264 号白皮书 作者 Ken Belanger Eric Brun Prasanna Kanchikere James Martinec Wendy Torell 为本白皮书评分 施耐德电气能源管理研究中心 第 264 号白皮书 版本 1 2 数据
2、中心物理基础设施有效维护方案的特性 数据中心关键 IT 负载运行需要高可靠性和高可用性物理基础设施系统的支持。物理基础设施包括 UPS、配电设备(如开关柜和 PDU)和冷却系统(如机房空调 CRAC/水冷机房空调 CRAH、直膨式精密空调、冷水机组等)。维护方案是确保此类系统安全运行的重要一环。维护方案除了能最大限度地减少停机时间外,还可以帮助系统有效运行,以及最大限度地延长其预期使用寿命,最终降低数据中心的长期运营成本。基础设施维护方案有两大核心功能,如图 1 所示。预防性维护(PM)旨在清除那些将要发生的故障,同时优化系统升级、零部件采购和人力资源。维护方案越稳健,那么维护活动达成预期目标
3、的可能性就越大。与之相对的是补救性维护(常常称为故障/维修或计划外维护),指的是在意外故障发生时采取的必要维护活动。有些方案在及时、有效地执行补救性维修方面具有突出成效。全面的维护方案=预防性维护补救性维护+旨在降低系统故障风险的维护活动为修复系统故障进行的维护活动 在第 124 号白皮书数据中心预防性维护策略中,论述了 UPS 等数据中心系统预防性维护的过往,以及从组件维护计划向更全面维护方案的发展历程。在本白皮书中,我们对预防性维护和补救性维护给出了更具体的叙述,以及论述了每种维护方案的方法,并举例说明。接着,我们介绍了在选择维护服务供应商时需要关注的五大关键特性。最后,我们描述了数据分析
4、、数字化服务和互联互通系统如何推动维护方案从日历维护向基于状态维护的演进。一旦预防性维护(又称预测性维护)被有效执行,可以减少停机时间及相关成本,降低运营成本,并推迟资本成本的投入。如今,数据中心的预防性维护方案通常被归入日历维护类别。日历维护,顾名思义,指按照事先确定的日历表(每季度、每半年或每年)定期执行的活动。在维护期间,将执行特定的一组任务。我们将在下文“维护的演进”章节中探讨随着数据分析和人工智能(AI)等技术日渐广泛的采用,以及数据中心系统不断向高度互联互通、智能以及远程管理系统演进,我们对包含状态维护在内的混合维护模式转型的看法。作为预防性维护工作的一部分,应完成以下主要活动:执
5、行全面的现场检查:包括对所有物理基础设施系统进行外观检查、环境(和发热)检查以及电气/机械检查。这些现场检查工作对于确定所需要执行的系统维护工作类型至关重要。在“有效维护方案的构成要素”章节中,我们将更详细地讨论这一点,并说明应着重关注服务供应商检查方法中的哪些特性。简介 图 1 全面现场维护方案的两个组成部分 预防性维护 施耐德电气能源管理研究中心 第 264 号白皮书 版本 1 3 数据中心物理基础设施有效维护方案的特性 更换耗材:大多数物理基础设施系统都存在易耗件,意味着它们的预期使用寿命较短。常见的易耗件包括电池、电容器1、滤网和加湿器滤芯。在这些部件对数据中心造成停机风险前进行更换非
6、常重要。此外,及时的干预措施可以推迟更换零部件的时间(“准确时机”),最大限度地降低资本成本投入。关键组件的预期使用寿命是设计数据中心时应当考虑的一个变量要素,因为其会影响所需的维护频率。其中一种向基于状态的维护模式转型方法是使用配备可更换或可升级组件的模块化设备来翻新旧设备。功能验证:在这一步中,技术人员确认系统是否正在(或将要)按需执行维护。如果是 UPS 的话,可能是系统自检测试、自动加载测试、运行时间测试或静态旁路的切换。对于机房精密空调/水冷精密空调,包括测试风扇、加热器、加湿器、压缩机、冷凝泵,以及检查制冷剂液位或冷冻水流量。其中有些与冷凝水管理和加湿相关的零部件只是季节性使用,如