申晗-快手推搜广计算引擎优化实践v2.pdf-三个皮匠报告

1、快手推搜广计算引擎优化实践申晗-快手 AI 平台编译器&异构大模型推理 Tech LeadDataFunSummit#2024目录I.背景II.性能优化III.工程架构IV.多元算力背景：推荐系统进入GPU时代深度学习推荐系统从使用简单的多层MLP 预测CTR，逐渐发展到基于GRU/Attention的用户序列建模，再到LLM For Rec大模型时代，DNN 部分的模型结构的复杂度、算力需求显著增长。业界推荐系统（精粗排）已全面进入GPU时代。1 Cheng,Heng-Tze,et al.Wide&deep learning for recommender systems.Proceedi

2、ngs of the 1st workshop on deep learning for recommender systems.2016.2 Zhou,Guorui,et al.Deep interest evolution network for click-through rate prediction.Proceedings of the AAAI conference on artificial intelligence.Vol.33.No.01.2019.3 Pi,Qi,et al.Search-based user interest modeling with lifelong

3、sequential behavior data for click-through rate prediction.Proceedings of the 29th ACM International Conference on Information&Knowledge Management.2020.4 Zhai,Jiaqi,et al.Actions Speak Louder than Words:Trillion-Parameter Sequential Transducers for Generative Recommendations.arXiv preprint arXiv:24

4、02.17152(2024).Wide&Deep,Google 20161DIEN,Alibaba 20182SIM,Alibaba 20203Hierarchical Sequential Transduction Unit,Meta 20244背景：训练耗费大量GPU资源推荐系统训练耗费大量GPU资源以快手某业务推荐模型在线训练为例，一个任务需耗费 150-200卡 A10 GPU 才能满足处理实时样本流的吞吐需求；算法日常迭代/AB实验，一组实验 GPU 数 x N，多组任务消耗的资源非常大推搜广总共的资源池消耗可能到大几千上万卡，这个规模的存量卡的优化有重要的成本价值，支撑业务对

5、更大规模模型的探索也有重要的业务价值。Kafka?KAIDataset?Tensorflowauc?PS?Worker?DenseTableSparseTable?Dense?Sparse?lookuppullpushUpdate?PS?HDFSBTQGrafanaKMLKuaiBI数据IO计算（GPU）通信快手推荐典型业务：计算在全流程占比高达70%，而计算部分主要耗时在 DNN。因此，我们需要非常关注DNN部分的计算优化来降本增效。一个推荐训练系统包括数据IO、计算与通信三个主要模块。当数据IO与通信异步做的足够好之后，计算变成了主要的性能瓶颈图：快手推搜广分布式训练框架KAI背景：Ten

6、sorFlow 编译优化技术栈快手训练计算引擎的优化围绕着编译优化展开，在AI编译器领域，编译优化的主要内涵是计算图的静态分析优化+高效的硬件代码生成（手写算子+自动Codegen）快手推搜广训练采用使用 TensorFlow 作为DNN 的计算引擎。TensorFlow 构建静态图，通过图分析+编译优化提升模型性能 Grappler：通用图优化模块 XLA：Just-In-Time 子图编译图：TensorFlow 图优化&执行流程图：TensorFlow 图编译下降到各个硬件涉及组件示意训练优化需要即时编译GrapplerXLA背景：TensorFlow 编译优化技术栈 Grappler

申晗-快手推搜广计算引擎优化实践v2.pdf

相关报告