1、 智算中心液冷架构探讨 摘要 许多用于训练大型语言模型(LLM)和推理工作负载的配备了加速器(如 GPU)的人工智能服务器会产生足够的热量,因此需要采用液冷进行冷却。这些服务器配备了输入输出管道,并且需要一个由歧管(Manifolds)、冷却分配单元(CDUs)和室外散热机组组成的生态系统。针对六种适用于液冷的常见散热架构,我们提供指南以选出最符合您的人工智能服务器或集群的架构。能源管理研究中心 第 133 号白皮书 作者:Paul Lin Robert Bunger Victor Avelar 为本白皮书评分 施耐德电气能源管理研究中心 第 110 号白皮书 版本 2 2 智算中心液冷架构探
2、讨 用于人工智能训练和推理的服务器所使用的加速器和处理器具有很高的热设计功耗(TDP)1。考虑到散热器尺寸、服务器气流和能效等因素,通过风冷方式对这些芯片进行冷却变得越来越不切实际,因此不得不转而采用液冷进行冷却。液冷服务器具有诸多优势,包括能够提升加速器的可靠性和性能、提高能效、减少用水量和降低噪音。2 AI 服务器的液冷方式主要分为两类:冷板式液冷和浸没式液冷3。它们在本文我们将探讨的散热生态系统方面有些细微差异。对于在部署液冷服务器方面缺乏经验的数据中心运营商和 IT 经理,需要了解以下几个问题:如何让冷水流入、热水流出?什么是 CDU?我是否需要 CDU?选择合适的液冷散热架构需要采取
3、哪些步骤?液冷生态系统涉及三个要素(即服务器内部的热捕获、CDU 类型和将热量排至室外环境的方法)。CDU 是一种用于将 IT 流体回路与制冷系统其余部分隔离的系统,且必须具备五大功能(即温度控制、流量控制、压力控制、流体处理、热交换和隔离)。如表1 所示,常见的液冷架构有六种,它们各有优缺点,以及适用的部署场景。散热方法 CDU 类型 使用现有设施散热系统 将热量排入 IT 机房的空气中 使用机柜内安装式 CDU 使用落地式 CDU 将热量排至设施现有水系统 使用机柜内安装式 CDU 使用落地式 CDU 构建专用的设施散热系统 将热量排至独立的水系统 使用机柜内安装式 CDU 使用落地式 C
4、DU 冷却分配单元(CDU)是液冷架构中的重要组成部分。CDU 用于将 IT 冷却液与制冷系统的其余部分隔离开来。图 1 为 ASHRAE 液冷架构的简化视图。图中显示的三个回路分别为技术冷却系统(TCS)、设施水系统(FWS)和冷却水系统(CWS)回路。FWS 回路被称为一次回路,而 TCS 回路则被称为二次回路。以上简短的描述表明,在缺乏合理框架情况下,关于液冷架构的讨论将变得非常复杂。1 有关该主题的更多信息,请参见第 110 号白皮书人工智能带来的颠覆:数据中心设计的挑战及相关指南。2 有关液冷优势的更多信息,请参见第 279 号白皮书采用液冷的五大原因。3 有关液冷方法的更多信息,请
5、参见第 265 号白皮书用于数据中心和边缘应用的液冷技术。液冷架构描述 表 1 常见的液冷架构,包括散热方式和 CDU 类型。简介 施耐德电气能源管理研究中心 第 110 号白皮书 版本 2 3 智算中心液冷架构探讨 机柜机柜外部CDU服务器CDU服务器冷机冷却水系统(CWSCWS)设施水系统(FWSFWS)技术冷却系统(TCSTCS)冷却塔数据机房1 12 21 13 32 2 我们建议一种液冷架构从根本上应该通过以下三个要素进行描述:1.服务器内部的热捕获(不在本白皮书讨论范围之内)2.CDU 类型 3.将热量排至室外环境的方法 图 1 中标出了这三个要素,下文将对其进行简要介绍。1.1.
6、服务器内部的热捕获 利用液体从 IT 组件中捕获热量。这种液体可以是与元器件直接接触的绝缘液(通常是油),也可以是流经固定在发热元器件上冷板的制冷剂或水。虽然这是液冷架构的重要组成部分,但不在本白皮书讨论范围之内。2.2.CDUCDU 类型 如前所述,CDU 是一种将 IT 流体回路(TCS)与制冷系统其余部分隔离的系统。CDU通常以单机柜形式存在,内部集成了所有部件。它们执行下文介绍的五大功能。在介绍CDU 类型之前,了解这些功能非常重要。温度控制 CDU 精确控制 TCS 回路中的流体温度。TCS 供液温度由 IT 供应商确定,通常取决于加速器和处理器的最高壳体温度,以及所使用的液冷解决方