当前位置:首页 > 报告详情

硬件管理项目概述及工作流程.pdf

上传人: 明**** 编号:1011945 2025-12-21 15页 951.98KB

1、Hemal Shah,Broadcom Inc.Jeff Hilland,HPEHardware Management Project Overview and WorkstreamsHARDWARE MANAGEMENTHardware Management Project Overview and WorkstreamsHemal Shah,Distinguished Engineer and Architect,Broadcom Inc.Jeff Hilland,Distinguished Technologist,HPEHardware Management ProjectSub-Pr

2、ojectsHardware Fault ManagementOpenRMC-DMManagement ModularNon-CLA WorkstreamsSystem GPU ManagementFleet Memory Fault ManagementRAS APIManageability ProfilesAuxilliary Management ControllerScalable Cloud Infrastructure Management(SCIM)DC Diagnostics and DebugCLA WorkstreamsCall to ActionAgendaHardwa

3、re Management Project OverviewHardware Fault Management SubprojectRequirements for hardware fault managementStandardizing system behavior under hardware failuresDefines key baseline requirements of managing HW errors to achieve target service levelProvides reference and guidance on system hardware f

4、ailure managementIncludes Fleet Memory Fault MgmtOpenRMC-DM SubprojectOpenRMC specifies the northbound interface for the Rack Management Controller(RMC)OpenRMC also specifies the southbound interface requirements for the RMCDevice Manager(DM)provides an open-source implementation of the rack manager

5、 controllerManagement Module maintains RunBMC specificationsManagement module separates the common platform management hardware behind a connectorRunBMC specifies connector pin-outHardware Management Sub-ProjectsDefine the manageability of the GPU(off-platform and on-platform)Includes firmware updat

6、e and RASContributed specificationsOCP GPU Management Redfish Interoperability ProfileOCP GPU&Accelerator Management InterfacesSystem GPU Management WorkstreamStandardize vendor agnostic architecture for memory error handlingModularization of inputs from different hardware vendorsAPIs and connection

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
根据报告的内容,全文主要围绕硬件管理项目展开,包括以下关键点: 1. 项目概述:硬件管理项目旨在提高硬件故障管理、系统可管理性和云基础设施管理的效率。 2. 子项目:包括硬件故障管理、OpenRMC-DM、系统GPU管理、舰队内存故障管理、RAS API、可管理性配置文件、辅助管理控制器、可扩展云基础设施管理(SCIM)和数据中心诊断与调试。 3. 硬件故障管理:标准化硬件故障下的系统行为,提供管理硬件错误的参考和指南。 4. OpenRMC-DM:定义RMC的北向和南向接口,提供开源的设备管理器实现。 5. 系统GPU管理:定义GPU的可管理性,包括固件更新和可靠性、可用性、可维护性(RAS)。 6. 舰队内存故障管理:标准化内存错误处理,提供更好的舰队规模RAS管理。 7. RAS API:提供RAS的通用抽象,支持开源实现。 8. 可管理性配置文件:包括平台级和组件级配置文件,如液冷配置文件和可持续性配置文件。 9. 辅助管理控制器:定义管理辅助设备的软件/固件API要求。 10. 可扩展云基础设施管理(SCIM):标准化大规模云数据中心的管理接口。 11. 数据中心诊断与调试:创建文档和接口,以诊断和调试数据中心内的组件和节点。 12. 其他CLA工作流:包括超大规模CPU和GPU管理、开放引导和管理、服务器组件弹性等。
OCP如何统一架构?" 开源实现背后的秘密?" 云数据中心规模管理新篇章?"
客服
商务合作
小程序
服务号
折叠