当前位置:首页 > 报告详情

针对 HBM 设备的故障慢速检测框架.pdf

上传人: 芦苇 编号:651878 2025-05-01 18页 903.54KB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文提出了一种针对高带宽内存(HBM)设备的 fail-slow 检测框架。背景部分指出,随着处理器性能的提高,内存带宽的提升速度远跟不上,形成了所谓的“内存墙”,这成为了训练大规模语言模型(LLM)的一个主要障碍。文章首先回顾了 fail-slow 故障的研究现状,尤其是在硬盘驱动器(HDDs)和固态硬盘(SSDs)以及云存储系统中的应用,但内存中的 fail-slow 故障研究相对较少。 设计目标部分提出,理想的检测框架应具备通用性、非侵入性和准确性。现有尝试包括同行评审和精细的程序跟踪,但都存在性能影响大、准确性降低等问题。文章强调了开发一个离线、非侵入性的检测工具的必要性,并提出了基于性能指标分布构建多项式回归模型,自动确定适应性阈值,定义 fail-slow 事件和评分机制的方法。 在实证研究中,使用了一个固定负载的神经网络模型,通过 Nvidia Nsight System 收集 GPU 性能数据。数据分析包括筛选出异常值,建立多项式回归模型,识别 fail-slow 事件,并建立风险评分机制。 结论部分指出,HBM 设备中存在 fail-slow 事件,该检测框架能有效识别单个设备中的 fail-slow 事件和慢项。华为提供的超过 15K 的分布式服务架构(DSA)设备、60K+ 的 HBM2 内存芯片和 460M+ 的错误数据,以及 19 个数据中心的日志,为测试和验证提供了丰富的数据集。该研究还发布了一个测试数据集,并提供了两年的 BMC 日志,包括ErrLog_Cycle和ErrLog_Occurrence日志,以及传感器日志如温度和功率等。 总体而言,该研究为HBM设备的fail-slow检测提供了一种有效的方法,并通过实际数据集验证了其有效性,有望整合到工厂测试流程中。
"HBM设备如何克服内存墙挑战?" "如何有效地检测HBM设备中的 fail-slow 故障?" " fail-slow 检测框架在实际应用中的表现如何?"
客服
商务合作
小程序
服务号
折叠