当前位置：首页 > 报告详情

针对 HBM 设备的故障慢速检测框架.pdf

上传人：芦苇编号：651878 2025-05-01 PDF PDF 18页 903.54KB

该报告所属合集： 第三十届亚洲及南太平洋设计自动化会议（ASP-DAC 2025）嘉宾演讲PPT合集

打包下载报告合集

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载报告到电脑，查找使用更方便

VIP专享文档

书签

分享

收藏

已收藏

版权投诉

/18

立即下载

word格式文档无特别注明外均可编辑修改，预览文件经过压缩，下载原文更清晰！

三个皮匠报告文库所有资源均是客户上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作商用。

《针对 HBM 设备的故障慢速检测框架.pdf》由会员分享，可在线阅读，更多相关《针对 HBM 设备的故障慢速检测框架.pdf（18页珍藏版）》请在三个皮匠报告上搜索。

1、Zikang Xu,Yiming Zhang and Zhirong ShenA Fail-Slow Detection Framework for HBM DevicesASP-DAC 2025OutlineBackgroundUnsuccessful Attempts and LessonsA Fail-Slow Detection Framework for HBM DevicesConclusionMemory wallBackground:Memory Wall3The gap between computing power and memory bandwidthis contin

2、uously widening in modern systems1Processors are improving exponentially,but memory bandwidth is increasing slowly1 Micron Inc.,Microns Perspective on Impact of CXL on DRAM Bit Growth Rate Processor performanceMemory performancePerformanceMemory wall becomes one of the major obstacles in training LL

3、M models.Background:High-Bandwidth Memory4Save massive physical space by stack verticallyOffer significantly higher data transfer ratesIntroduce reduced power consumptionHBM is a hopeful technology to overcome the memory wallDieBuffer dieTSVsSID0SID1Each pseudo channel can be accessed independentlyB

4、ackground:Fail-slow Faults5Recent Studies of Fail-slow FaultsA survey of Fail-slow faultsResearching and detecting fail-slow faults in HDDs and SSDsA fail-slow detection framework for cloud storage systemsFail-slow faults in memory have been less studied.Existing studies basically focus on theoretic

5、al speculations but lack robust validation,replication,and detection tools.OutlineBackgroundUnsuccessful Attempts and LessonsA Fail-Slow Detection Framework for HBM DevicesConclusionDesign Goals7A practical HBM fail-slow detection framework should have several properties.General.Due to the diversity

6、 of HBM devices,our framework aims to be applicable to all HBM devices with little or no modificationsNon-intrusive.If possible,we do not wish to modify or affect the user code.We prefer to use existing workloads and external performance statistics for testingAccurate.This framework should be able t

本文提出了一种针对高带宽内存（HBM）设备的 fail-slow 检测框架。背景部分指出，随着处理器性能的提高，内存带宽的提升速度远跟不上，形成了所谓的“内存墙”，这成为了训练大规模语言模型（LLM）的一个主要障碍。文章首先回顾了 fail-slow 故障的研究现状，尤其是在硬盘驱动器（HDDs）和固态硬盘（SSDs）以及云存储系统中的应用，但内存中的 fail-slow 故障研究相对较少。设计目标部分提出，理想的检测框架应具备通用性、非侵入性和准确性。现有尝试包括同行评审和精细的程序跟踪，但都存在性能影响大、准确性降低等问题。文章强调了开发一个离线、非侵入性的检测工具的必要性，并提出了基于性能指标分布构建多项式回归模型，自动确定适应性阈值，定义 fail-slow 事件和评分机制的方法。在实证研究中，使用了一个固定负载的神经网络模型，通过 Nvidia Nsight System 收集 GPU 性能数据。数据分析包括筛选出异常值，建立多项式回归模型，识别 fail-slow 事件，并建立风险评分机制。结论部分指出，HBM 设备中存在 fail-slow 事件，该检测框架能有效识别单个设备中的 fail-slow 事件和慢项。华为提供的超过 15K 的分布式服务架构（DSA）设备、60K+ 的 HBM2 内存芯片和 460M+ 的错误数据，以及 19 个数据中心的日志，为测试和验证提供了丰富的数据集。该研究还发布了一个测试数据集，并提供了两年的 BMC 日志，包括ErrLog_Cycle和ErrLog_Occurrence日志，以及传感器日志如温度和功率等。总体而言，该研究为HBM设备的fail-slow检测提供了一种有效的方法，并通过实际数据集验证了其有效性，有望整合到工厂测试流程中。

"HBM设备如何克服内存墙挑战？" "如何有效地检测HBM设备中的 fail-slow 故障？" " fail-slow 检测框架在实际应用中的表现如何？"

全行业研究报告分享下载平台

0731-84720580
商务合作：really158d
友链申请 (QQ)：1737380874

关于我们

更多

关于我们

三个皮匠报告微信公众号

三个皮匠报告微信小程序

扫码咨询网站充值下载问题

友情链接：

营销自动化亿欧智库微播易阿里妈妈

copyright@2008-2013 长沙景略智创信息技术有限公司版权所有网站备案/许可证号：湘B2-20190120 | 工信部备案号：湘ICP备17000430号-2 | 公安备案号：湘公网安备43010402001071号

客服

小程序

服务号

折叠