李健-京东广告训练推理场景GPU优化实践.pdf-三个皮匠报告

1、DataFunSummit#2024京东广告稀疏大模型训练与推理GPU优化实践演讲人-李健-京东-算法应用工程师岗01京东广告场景介绍03京东广告推理场景GPU优化实践02京东广告训练场景GPU优化实践04总结目录CONTENTDataFunSummit#202401京东广告场景介绍京东广告场景介绍京东广告算法场景浅层DNN-深层DNN参数规模：百GB-TB算力需求指数型增长京东广告业务场景面向C端用户：毫秒级低延时响应、99.99%高稳定可用率流量规模：百万QPS高并发访问数据规模：亿级别用户、数十亿商品京东广告推理训练框架算子级建模，灵活，迭代迅速离在线一致性GPU应用难点模型稀疏性高，I

2、O易瓶颈显存有限且昂贵，难以承载大规模稀疏参数CPU密集与GPU密集相结合的模型场景，资源分配不均衡推荐搜索DataFunSummit#202402京东广告训练场景GPU优化实践京东广告训练场景GPU优化实践GPU应用难点存储挑战：TB级别参数规模，GPU显存难以承载 CPU稀疏参数服务器+多机多卡训练范式计算挑战：特征计算网络算力（CPU）消耗巨大，算力分配不均 CPU+GPU的异构分布式流水线并行训练架构IO挑战：大规模稀疏参数训练IO占比超30%，GPU利用不充分基于GPU-HBM和CPU-DRAM的二级参数服务器五级分布式流水线京东广告训练场景GPU优化实践存储CPU稀疏参数服务器

3、+多机多卡训练范式参数的存储与同步：稀疏参数：分片稠密参数：复制参数通信卡间通信：nvlink 跨机通信：infiniteband 参数服务器通信：PCIE京东广告训练场景GPU优化实践计算CPU&GPU异构分布式流水线并行训练模型分图计算：模型结构与硬件资源最大化匹配异构部署分摊IO CPU与GPU资源分配均衡集群资源利用率拆图前CPUGPU拆图后100%模型分图计算计算图分布并行执行80%60%40%20%计算图拆分特征计算网络CPU密集型模型计算网络GPU密集型完整计算网络京东广告训练场景GPU优化实践IO基于GPU-HBM与CPU-DRAM的二级参数服务器GPU-HBM参数服务器

4、高吞吐CPU-DRAM参数服务器易扩展 FusedAdamOptimizer 算子融合，优化显存访问次数京东广告训练场景GPU优化实践IO五级分布式流水线特征计算&模型训练异构分布式部署CPU&GPU算力均衡分摊IO特征数据HtD预传输IO&训练并行自动插入&识别聚合传输&零拷贝DataFunSummit#202403京东广告推理场景GPU优化实践京东广告推理场景GPU优化实践GPU应用难点推荐场复杂性：商品排序队列长度不一，部分队列较短请求拉低整体GPU利用率 TensorBatch低延时高并发的推理场景：高吞吐的GPU计算资源如何适配 GPU多流计算模型建模复杂：模型中上千个算子节点难

5、以被调度深度学习编译器京东广告推理场景GPU优化实践TensorBatch常规Batch方案目标：最大化吞吐只考虑推理样本数无法适应广告场景广告推荐场TensorBatch方案目标：最大化吞吐与最优化延时考虑维度延时排序队列长度（样本数）用户行为序列长度=+:单请求计算消耗 :用户兴趣建模计算消耗 :广告建模计算消耗:用户行为长度:广告排序队列长度京东广告推理场景GPU优化实践多流计算TensorFlow推理模式 GPU单计算通道，算子串行执行缺少处理并发请求的能力多流计算框架 Multi Cuda Stream：支撑并发计算 Multi Cuda Context：支撑并发调度

6、Multi CPU Processes：减少上下文切换损耗京东广告推理场景GPU优化实践深度学习编译器推荐场模型特点多样化的用户兴趣建模有助于提升效果模型结构分支多，算子粒度细，GPU KernelLaunch消耗大深度学习编译器算子自动融合、计算图优化仅支持静态维度，不适用于复杂特征场景的推荐领域运行时编译耗时长（秒级），不满足毫秒级延时需求扩展深度学习编译器深度学习编译器分图分桶预编译技术深度学习编译器异步编译技术京东广告推理场景GPU优化实践扩展深度学习编

李健-京东广告训练推理场景GPU优化实践.pdf

相关报告