当前位置:首页 > 报告详情

Merlin HugeCTR :深入研究性能优化.pdf

上传人: li 编号:29554 2021-02-07 33页 1.13MB

1、NVIDIAMERLIN HUGECTR: DEEP DIMEINTO PERFORMANCEOPTIMIZATIONMinseok Lee, December 17th 2020#page#NVIDIA MERLIN OPEN BETADemocratizing Large-Scale Deep Learning RecommendersETLDATATRAININGINFERENCELOADERO(10)0(1000)HugeCTRSENERATIONVTabularNVTabO(Billions)1FTensorFlowOPyTorchEMBEDDINGSUser QueryRAPIDS

2、RAPIDSCUDNNTritonDATALAKE#page#RELATED SESSIONS IN GTC CHINALearn More About NVIDIA MerlinMerlin:GPU加速的推荐条统框察CNS20590-王泽豪,英伟达亚太AI开发者技术解决方素经理,NVIDIAMerlinNVTabular:基于GPU加速的推荐条统特征工程最佳实践CNS20624-黄孟迪,深度学习工程师,NVIDIA使用GPUembeddingcache加逸CTR推理过程CNS20626-都凡,GPU计算专家,NVIDIA将HugeCTREmbedding集成于TensorFlowCNS203

3、77-董建兵,GPU计算专家,NVIDIAGPU加速的数据处理在推荐条统中的应用CNS20813-魏英灿,GPU计算专家,NVIDIA#page#HUGECTR OVERVIEW#page#HUGECTR: SCALABLE.ACCELERATED TRAININGhttps:/ efficient GPU framework and reference design dedicated for Click-Through-Rate (CTR) estimating trainingDesigned for distributed training with model-parallel em

4、bedding tables and data-parallel neural networksCovers common and recent architectures and their variants such as Deep Learning Recommendation Model (DLRM)Wide and Deep,Deep Cross Network,and DeepFM#page#HUGECTR PIPELINETo Train Large Scale Recommender ModelsNode1OapoNGPUOGPU1GPU2GPU3GPUOGPU1GPU2GPU

5、3Neural NetworkNeural NetworkNeural NetworkNeural NetworkNeural NetworkNeural NetworkNeural Networkleural NetworkData ParallelModel ParallelEmbedding#page#PERFORMANCE OPTIMIZATION#page#HUGECTR DATA READERPrefetching 8 Latency HidingComputeBatch NGPUTrain on GPUActive TimeBatch N+1Train on GPUCopy to

6、 GPUBatch N+2Train on GPUCopy to GPURead to CPUBatch N+3Train on GPURead to CPUCopy to GPUBatch N+4Copy to GPURead to CPUTrain OPrefetch 3 batches(3 worker threads)TimenviDt#page#CHALLENGES IN EMBEDDING LAYERHow to Mitigate Memory Demands and Communication OverheadEmbedding table may not fit inasing

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了NVIDIA的HugeCTR推荐系统框架,这是一个为大规模深度学习推荐模型提供高性能优化和参考设计的GPU框架。HugeCTR支持模型并行和数据并行,适用于分布式训练,并且可以集成TensorFlow。文章提到了多个与HugeCTR相关的GTC中国会议议题,展示了如何通过GPU加速数据处理、特征工程和模型训练来提高CTR推理过程的性能。 关键数据包括:HugeCTR在NVIDIA DGX A100系统上展示了其在训练DLRM模型方面的优势,成为商业上最快的解决方案。此外,HugeCTR还提供了一个Python接口,用户可以通过几个步骤快速开始使用。 主要观点和优化措施包括:使用GPU加速数据处理,优化特征工程,如使用NCCL进行多GPU/节点通信,采用GPU哈希表和融合CUDA内核来减少内存需求和通信开销,以及使用FP16等低精度来提高性能。HugeCTR还优化了神经网络层,例如MLP层和成对交互层,以及损失计算和权重更新的步骤。 总之,NVIDIA的HugeCTR提供了一系列优化措施,以提高大规模深度学习推荐模型的训练和推理性能,并通过GPU加速和并行计算技术实现了这些优化。
"HugeCTR如何优化深度学习推荐系统性能?" "如何使用NVIDIA Merlin和HugeCTR构建高效推荐系统?" "HugeCTR框架有哪些关键特性和优势?"
客服
商务合作
小程序
服务号
折叠