当前位置：首页 > 报告详情

Merlin HugeCTR ：深入研究性能优化.pdf

上传人： li 编号：29554 2021-02-07 PDF PDF 33页 1.13MB

该报告所属合集： 2020年GTC中国线上大会嘉宾演讲PPT资料合集

打包下载报告合集

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载报告到电脑，查找使用更方便

VIP专享文档

书签

分享

收藏

已收藏

版权投诉

/33

立即下载

《Merlin HugeCTR ：深入研究性能优化.pdf》由会员分享，可在线阅读，更多相关《Merlin HugeCTR ：深入研究性能优化.pdf（33页珍藏版）》请在三个皮匠报告上搜索。

1、NVIDIAMERLIN HUGECTR: DEEP DIMEINTO PERFORMANCEOPTIMIZATIONMinseok Lee， December 17th 2020#page#NVIDIA MERLIN OPEN BETADemocratizing Large-Scale Deep Learning RecommendersETLDATATRAININGINFERENCELOADERO（10）0（1000）HugeCTRSENERATIONVTabularNVTabO（Billions）1FTensorFlowOPyTorchEMBEDDINGSUser QueryRAPIDS

2、RAPIDSCUDNNTritonDATALAKE#page#RELATED SESSIONS IN GTC CHINALearn More About NVIDIA MerlinMerlin：GPU加速的推荐条统框察CNS20590-王泽豪，英伟达亚太AI开发者技术解决方素经理，NVIDIAMerlinNVTabular：基于GPU加速的推荐条统特征工程最佳实践CNS20624-黄孟迪，深度学习工程师，NVIDIA使用GPUembeddingcache加逸CTR推理过程CNS20626-都凡，GPU计算专家，NVIDIA将HugeCTREmbedding集成于TensorFlowCNS203

3、77-董建兵，GPU计算专家，NVIDIAGPU加速的数据处理在推荐条统中的应用CNS20813-魏英灿，GPU计算专家，NVIDIA#page#HUGECTR OVERVIEW#page#HUGECTR： SCALABLE.ACCELERATED TRAININGhttps:/ efficient GPU framework and reference design dedicated for Click-Through-Rate (CTR) estimating trainingDesigned for distributed training with model-parallel em

4、bedding tables and data-parallel neural networksCovers common and recent architectures and their variants such as Deep Learning Recommendation Model （DLRM）Wide and Deep，Deep Cross Network，and DeepFM#page#HUGECTR PIPELINETo Train Large Scale Recommender ModelsNode1OapoNGPUOGPU1GPU2GPU3GPUOGPU1GPU2GPU

5、3Neural NetworkNeural NetworkNeural NetworkNeural NetworkNeural NetworkNeural NetworkNeural Networkleural NetworkData ParallelModel ParallelEmbedding#page#PERFORMANCE OPTIMIZATION#page#HUGECTR DATA READERPrefetching 8 Latency HidingComputeBatch NGPUTrain on GPUActive TimeBatch N+1Train on GPUCopy to

6、 GPUBatch N+2Train on GPUCopy to GPURead to CPUBatch N+3Train on GPURead to CPUCopy to GPUBatch N+4Copy to GPURead to CPUTrain OPrefetch 3 batches（3 worker threads）TimenviDt#page#CHALLENGES IN EMBEDDING LAYERHow to Mitigate Memory Demands and Communication OverheadEmbedding table may not fit inasing

word格式文档无特别注明外均可编辑修改，预览文件经过压缩，下载原文更清晰！

三个皮匠报告文库所有资源均是客户上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作商用。

本文主要介绍了NVIDIA的HugeCTR推荐系统框架，这是一个为大规模深度学习推荐模型提供高性能优化和参考设计的GPU框架。HugeCTR支持模型并行和数据并行，适用于分布式训练，并且可以集成TensorFlow。文章提到了多个与HugeCTR相关的GTC中国会议议题，展示了如何通过GPU加速数据处理、特征工程和模型训练来提高CTR推理过程的性能。关键数据包括：HugeCTR在NVIDIA DGX A100系统上展示了其在训练DLRM模型方面的优势，成为商业上最快的解决方案。此外，HugeCTR还提供了一个Python接口，用户可以通过几个步骤快速开始使用。主要观点和优化措施包括：使用GPU加速数据处理，优化特征工程，如使用NCCL进行多GPU/节点通信，采用GPU哈希表和融合CUDA内核来减少内存需求和通信开销，以及使用FP16等低精度来提高性能。HugeCTR还优化了神经网络层，例如MLP层和成对交互层，以及损失计算和权重更新的步骤。总之，NVIDIA的HugeCTR提供了一系列优化措施，以提高大规模深度学习推荐模型的训练和推理性能，并通过GPU加速和并行计算技术实现了这些优化。

"HugeCTR如何优化深度学习推荐系统性能？" "如何使用NVIDIA Merlin和HugeCTR构建高效推荐系统？" "HugeCTR框架有哪些关键特性和优势？"

全行业研究报告分享下载平台

0731-84720580
商务合作：really158d
友链申请 (QQ)：1737380874

关于我们

更多

关于我们

三个皮匠报告微信公众号

三个皮匠报告微信小程序

扫码咨询网站充值下载问题

友情链接：

营销自动化亿欧智库微播易阿里妈妈

copyright@2008-2013 长沙景略智创信息技术有限公司版权所有网站备案/许可证号：湘B2-20190120 | 工信部备案号：湘ICP备17000430号-2 | 公安备案号：湘公网安备43010402001071号

客服

小程序

服务号

折叠