当前位置:首页 > 报告详情

李健-京东广告训练推理场景GPU优化实践.pdf

上传人: 张** 编号:168964 2024-07-06 19页 1.92MB

1、DataFunSummit#2024京东广告稀疏大模型训练与推理GPU优化实践演讲人-李健-京东-算法应用工程师岗01京东广告场景介绍03京东广告推理场景GPU优化实践02京东广告训练场景GPU优化实践04总结目录CONTENTDataFunSummit#202401京东广告场景介绍京东广告场景介绍京东广告算法场景浅层DNN-深层DNN参数规模:百GB-TB算力需求指数型增长京东广告业务场景面向C端用户:毫秒级低延时响应、99.99%高稳定可用率流量规模:百万QPS高并发访问数据规模:亿级别用户、数十亿商品京东广告推理训练框架算子级建模,灵活,迭代迅速离在线一致性GPU应用难点模型稀疏性高,I

2、O易瓶颈显存有限且昂贵,难以承载大规模稀疏参数CPU密集与GPU密集相结合的模型场景,资源分配不均衡推荐搜索DataFunSummit#202402京东广告训练场景GPU优化实践京东广告训练场景GPU优化实践GPU应用难点存储挑战:TB级别参数规模,GPU显存难以承载 CPU稀疏参数服务器+多机多卡训练范式计算挑战:特征计算网络算力(CPU)消耗巨大,算力分配不均 CPU+GPU的异构分布式流水线并行训练架构IO挑战:大规模稀疏参数训练IO占比超30%,GPU利用不充分 基于GPU-HBM和CPU-DRAM的二级参数服务器 五级分布式流水线京东广告训练场景GPU优化实践存储CPU稀疏参数服务器

3、+多机多卡训练范式参数的存储与同步:稀疏参数:分片 稠密参数:复制参数通信 卡间通信:nvlink 跨机通信:infiniteband 参数服务器通信:PCIE京东广告训练场景GPU优化实践计算CPU&GPU异构分布式流水线并行训练模型分图计算:模型结构与硬件资源最大化匹配异构部署 分摊IO CPU与GPU资源分配均衡集群资源利用率拆图前CPUGPU拆图后100%模型分图计算计算图分布并行执行80%60%40%20%计算图拆分特征计算网络CPU密集型模型计算网络GPU密集型完整计算网络京东广告训练场景GPU优化实践IO基于GPU-HBM与CPU-DRAM的二级参数服务器GPU-HBM参数服务器

4、 高吞吐CPU-DRAM参数服务器 易扩展 FusedAdamOptimizer 算子融合,优化显存访问次数京东广告训练场景GPU优化实践IO五级分布式流水线特征计算&模型训练异构分布式部署CPU&GPU算力均衡分摊IO特征数据HtD预传输IO&训练并行自动插入&识别聚合传输&零拷贝DataFunSummit#202403京东广告推理场景GPU优化实践京东广告推理场景GPU优化实践GPU应用难点推荐场复杂性:商品排序队列长度不一,部分队列较短请求拉低整体GPU利用率 TensorBatch低延时高并发的推理场景:高吞吐的GPU计算资源如何适配 GPU多流计算模型建模复杂:模型中上千个算子节点难

5、以被调度 深度学习编译器京东广告推理场景GPU优化实践TensorBatch常规Batch方案 目标:最大化吞吐 只考虑推理样本数 无法适应广告场景广告推荐场TensorBatch方案 目标:最大化吞吐与最优化延时 考虑维度延时排序队列长度(样本数)用户行为序列长度=+:单请求计算消耗 :用户兴趣建模计算消耗 :广告建模计算消耗:用户行为长度:广告排序队列长度京东广告推理场景GPU优化实践多流计算TensorFlow推理模式 GPU单计算通道,算子串行执行 缺少处理并发请求的能力多流计算框架 Multi Cuda Stream:支撑并发计算 Multi Cuda Context:支撑并发调度

6、Multi CPU Processes:减少上下文切换损耗京东广告推理场景GPU优化实践深度学习编译器推荐场模型特点 多样化的用户兴趣建模有助于提升效果 模型结构分支多,算子粒度细,GPU KernelLaunch消耗大深度学习编译器 算子自动融合、计算图优化 仅支持静态维度,不适用于复杂特征场景的推荐领域 运行时编译耗时长(秒级),不满足毫秒级延时需求扩展深度学习编译器 深度学习编译器分图分桶预编译技术 深度学习编译器异步编译技术京东广告推理场景GPU优化实践扩展深度学习编

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了2024年京东广告场景下的大模型训练与推理的GPU优化实践。文章指出,随着广告业务的发展,模型参数规模不断扩大,算力需求指数型增长,面临模型稀疏性高、IO瓶颈、显存有限等挑战。针对这些挑战,文章提出了一系列优化措施: 1. 存储优化:采用CPU稀疏参数服务器+多机多卡训练范式,实现参数的存储与同步,提高GPU显存利用率。 2. 计算优化:采用CPU&GPU异构分布式流水线并行训练架构,实现模型分图计算,最大化模型结构与硬件资源匹配,并优化资源分配。 3. IO优化:基于GPU-HBM和CPU-DRAM的二级参数服务器,优化显存访问次数,实现特征计算&模型训练异构分布式部署,分摊IO,提高训练效率。 4. 推理场景优化:针对推荐场复杂性、低延时高并发推理场景、模型建模复杂等问题,采用TensorBatch、多流计算和深度学习编译器等技术,实现推理场景的GPU优化。 综上所述,京东广告场景下的GPU优化实践取得了显著成效,提高了模型训练与推理的效率,为广告业务提供了有力支持。
"京东广告如何应对大规模稀疏模型训练与推理挑战?" "GPU优化实践如何提升京东广告业务的低延时响应和高可用率?" "如何通过深度学习编译器与异步编译技术优化广告推荐场景?"
客服
商务合作
小程序
服务号
折叠