1、例:支撑海量数据的大数据平台与架构 例:茹炳晟例:腾讯Tech Lead,腾讯研究院特约研究员正文要求:微软雅黑:最小字号 8号 宋体:最小字号 10号 等线:最小字号 12号企业级云原生机器学习平台GPU资源效能提升实践 蒋菁菁eBay高级技术专家蒋菁菁eBay高级技术专家在机器学习平台领域有丰富的工作经验。2018年加入eBay机器学习平台,参与并负责了eBay机器学习模型训练平台分布式训练功能支持、用户权限管理系统、多集群管理等项目的设计和开发,对模型训练平台有丰富的设计开发经验。对数据平台及其接入有实战经验和深入了解。目前负责训练及推理平台GPU资源利用的优化工作。CONTENTS目录
2、1.背景介绍2.GPU资源利用率的问题与挑战3.提高GPU资源利用率的解决策略4.成果与案例分析5.结论与展望背景介绍昂贵的GPUNvidia B100:$30,000-35,000GPU资源在机器学习中的重要性海量数据算力算法AI模型推理请求推理结果AI平台-MLOps生命周期GPU利用率的问题与挑战GPU资源利用率低下的概况利用率共享部门1部门2离线资源池离线在线利用率中低工作类型主要影响因素分析流水型作业探索实验型利用率离线工作类型利用率时间探索型使用模式闲置的探索型作业降低利用率主要影响因素分析共享部门1部门2隔离的资源池降低利用率离线资源池在线资源池主要影响因素分析固定GPU实例数的
3、在线部署降低利用率利用率时间TPS时间在线部署GPU实例数对企业的影响资源浪费分配不均 总体GPU有空闲,但个别部门的GPU业务要等待效率低下提高GPU利用率的解决策略业务混部策略Global GPU SchedulerOnline production SLA pool(HA model serving)Autoscaling based on site trafficFree GPUs in poolOffline pool(batch inference,training)High priority batch workloadsPreemptible workloadsFree GPU
4、s allocated to preemptible workloadsSuper pod(foundation model training)WIP策略说明离线资源池和在线资源池通过节点粒度隔离,按需移动 在线需要低延迟、高SLA,而离线作业网络IO大,所以需要隔离 在线资源池buffer低于阈值后,从离线移节点往在线 在线资源池空闲、离线作业等待时间高,从在线移节点往离线离线资源池内部不再隔离,通过优先级和抢占式调度分配离线资源调度优化抢占式调度优先级设置:高:生产作业、高优先业务(如LLM)中:一般作业低:无时限临时性作业在线部署自动扩缩容技术基本原理关键配置参数minReplicaCo
5、untmaxReplicaCounttriggersscaleUp/scaleDown policystabilizationWindowSecondsPods/Percent value如何得到?运维工具回收闲置资源 离线:空闲12h GPU notebook 16d GPU job 在线 Preprod 空闲GPU部署扫描GPU利用率低的在线部署,分析原因并行动实时监控基于Prometheus&Grafana分析工具部门GPU Day分布部门GPU利用率趋势分析工具(基于OpenSearch)数据收集(批处理作业)元数据系统指标元数据存储指标存储成果与案例分析GPU利用率前后对比合并资源池
6、,优化调度运维回收闲置自动扩缩容节省GPU数目减少了对购买新GPU的需求结论与展望主要成果总结打通资源池,提高总体利用率回收闲置资源,提高利用效率利用自动扩缩容、优先级调度等技术,按需分配资源,提高利用率未来发展方向在线:自动扩缩容技术:集群内autoscaling=跨集群autoscaling 加速LLM scaleup时间 发掘更多LLM扩缩容指标离线:CPU/GPU计算分离:采用Ray等技术,提高计算效率 Workload动态rebalance(bin-packing)