当前位置:首页 > 报告详情

申晗-快手推搜广计算引擎优化实践v2.pdf

上传人: 张** 编号:168959 2024-07-06 31页 14.78MB

1、快手推搜广计算引擎优化实践申晗-快手 AI 平台编译器&异构大模型推理 Tech LeadDataFunSummit#2024目录I.背景II.性能优化III.工程架构IV.多元算力背景:推荐系统进入GPU时代 深度学习推荐系统从使用简单的多层MLP 预测CTR,逐渐发展到基于GRU/Attention的用户序列建模,再到LLM For Rec大模型时代,DNN 部分的模型结构的复杂度、算力需求显著增长。业界推荐系统(精粗排)已全面进入GPU时代。1 Cheng,Heng-Tze,et al.Wide&deep learning for recommender systems.Proceedi

2、ngs of the 1st workshop on deep learning for recommender systems.2016.2 Zhou,Guorui,et al.Deep interest evolution network for click-through rate prediction.Proceedings of the AAAI conference on artificial intelligence.Vol.33.No.01.2019.3 Pi,Qi,et al.Search-based user interest modeling with lifelong

3、sequential behavior data for click-through rate prediction.Proceedings of the 29th ACM International Conference on Information&Knowledge Management.2020.4 Zhai,Jiaqi,et al.Actions Speak Louder than Words:Trillion-Parameter Sequential Transducers for Generative Recommendations.arXiv preprint arXiv:24

4、02.17152(2024).Wide&Deep,Google 20161DIEN,Alibaba 20182SIM,Alibaba 20203Hierarchical Sequential Transduction Unit,Meta 20244背景:训练耗费大量GPU资源 推荐系统训练耗费大量GPU资源 以快手某业务推荐模型在线训练为例,一个任务需耗费 150-200卡 A10 GPU 才能满足处理实时样本流的吞吐需求;算法日常迭代/AB实验,一组实验 GPU 数 x N,多组任务消耗的资源非常大 推搜广总共的资源池消耗可能到大几千上万卡,这个规模的存量卡的优化有重要的成本价值,支撑业务对

5、更大规模模型的探索也有重要的业务价值。Kafka?KAIDataset?Tensorflowauc?PS?Worker?DenseTableSparseTable?Dense?Sparse?lookuppullpushUpdate?PS?HDFSBTQGrafanaKMLKuaiBI数据IO计算(GPU)通信快手推荐典型业务:计算在全流程占比高达70%,而计算部分主要耗时在 DNN。因此,我们需要非常关注DNN部分的计算优化来降本增效。一个推荐训练系统包括数据IO、计算与通信三个主要模块。当数据IO与通信异步做的足够好之后,计算变成了主要的性能瓶颈图:快手推搜广分布式训练框架KAI背景:Ten

6、sorFlow 编译优化技术栈 快手训练计算引擎的优化围绕着编译优化展开,在AI编译器领域,编译优化的主要内涵是计算图的静态分析优化+高效的硬件代码生成(手写算子+自动Codegen)快手推搜广训练采用使用 TensorFlow 作为DNN 的计算引擎。TensorFlow 构建静态图,通过图分析+编译优化提升模型性能 Grappler:通用图优化模块 XLA:Just-In-Time 子图编译图:TensorFlow 图优化&执行流程图:TensorFlow 图编译下降到各个硬件涉及组件示意训练优化需要即时编译GrapplerXLA背景:TensorFlow 编译优化技术栈 Grappler

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了快手在推荐系统性能优化方面的实践。首先,快手推荐系统已全面进入GPU时代,但训练耗费大量GPU资源,因此需要关注DNN部分的计算优化。快手采用了TensorFlow作为DNN计算引擎,通过Grappler和XLA进行图优化和编译优化。此外,快手还提出了Dynamic Scale FP16和BF16全图混合精度训练方案,以提高训练效率。在工程架构方面,快手从TensorFlow 1.x升级到2.x,并独立出XLA,以实现更灵活的编译优化。同时,快手也在探索多元算力,包括国产芯片和AMD GPU,以应对高端算力卡供不应求的挑战。
快手如何优化推荐系统GPU计算? 快手如何实现多元算力支持? 快手如何应对芯片禁令挑战?
客服
商务合作
小程序
服务号
折叠