当前位置:首页 > 报告详情

人工智能集群的弹性管理框架.pdf

上传人: 明**** 编号:1011449 2025-12-21 8页 1.02MB

1、Elastic Management Framework for the AI ClusterWiwynn Engineering Transformation TeamAI ClustersElastic Management Framework for the AI ClusterKarl ChiangDirector/Engineering Transformation TeamOutline4321Challenges of Next-Gen AI Data CenterNew Equipment for Rack-wise Liquid Cooling ManagementThe S

2、oftware Architecture for AI Cluster Data Management A Real Use Case From WiwynnOne of the Challenges of Next-Gen AI Data CenterHigh Power ConsumptionLiquid Cooling Infra.Nightmare?Rack-wise Liquid Cooling Management SystemModulating ValveFlow Meter&SensorsFacility WaterIn Row UMSIn-Row CDUIn Rack UM

3、S(Universal Management System)Server Leakage DetectSystem MonitoringSwitch Leakage DetectPower Shelf MonitoringPerformance MonitoringDrip Tray Leakage DetectRack Catch Pan Leakage Detect In Row UMS manage one CDU/Sidecar and related mechanical device In Rack UMS manage leakage and all device statist

4、ics in the rackManifold Leakage DetectThe Architecture for Wiwynn AI Cluster Data Management Legacy DatacenterAI ServerNetwork SwitchGeneric ServerStorageNext-Gen AI DatacenterDatacenterInfrastructure2-PIC TankSidecarIn row/rackCDUFluid ControllerFluid MonitorLiquid Cooling GPUServerData CollectorRe

5、dfishRedfishRedfish,Restful,ModbusTime Serial Data ClusterData VisualizerOperation Support SystemSCADA Notification Manager A Real Use Case From WiwynnThanos-PrometheusCompactorQuerierRulesPrometheusThanos SidecarAlertManagerGrafanaObject StoreOSSPromQLExportersIM Application(Teams,Slack,and etc)AdministratorGPU RacksPrometheusThanos SidecarExportersPrometheusThanos SidecarExportersPrometheusThanos SidecarExportersPrometheusThanos SidecarExportersInfrastructureNetworkCDUValveSensorPowerBMSHigh Speed StorageCtrl+User StorageRedfishRedfishRedfishRedfishRestfulThank You!

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
全文主要内容概括如下: 1. **下一代AI数据中心挑战**:高功耗、液体冷却基础设施。 2. **液体冷却管理系统**:包括调节阀、流量计、传感器、设施水、行内UMS、行内CDU、机架UMS、泄漏检测系统等。 3. **Wiwynn AI集群数据管理架构**:从传统数据中心到下一代AI数据中心的数据中心基础设施变化。 4. **关键组件**:液体冷却GPU服务器、数据收集器、Redfish、Thanos、Prometheus、Grafana、ObjectStore、OSS、PromQL导出器、IM应用等。 5. **实际案例**:Wiwynn的AI集群数据管理实践。 核心数据: - 机架UMS管理机架内泄漏和所有设备统计。 - 使用Redfish、Restful、Modbus等协议进行数据管理。
"挑战升级!AI数据中心如何应对高能耗?" Wiwynn AI集群数据管理架构" "液冷技术革新,Wiwynn如何管理AI数据中心?"
客服
商务合作
小程序
服务号
折叠