当前位置:首页 > 报告详情

中国移动九天人工智能平台 GPU 推理实践.pdf

上传人: li 编号:29456 2021-02-07 30页 2.33MB

1、中国移动China Mobile中国移动九天人工智能平台GPU推理实践中国移动通信研究院尹路2020年12月#page#AI推理场景风立Cafe2Chainer2mxnetPddlePddlePYTORCHTersofotheanoTrainingDNN ModelInference#page#推理效率不高的原因每个GPU/节点运行单模型只支持单框架需要定制化开发鑫展展展开发人员需要根据不同应用重新定些系统过载,而另一些空载解决方案只支持来自单一框架的模型制开发#page#NVIDIA TRITON最大化GPUs实时推理性能Tesla T4快速部署、管理多个模型TeslaT4易于扩展到不同架构

2、的GPUs以及多GPU节点TeslaV100与编排系统结合,可以进行metrics监测TeslaV100开源CTesla P4Tesla P4#page#NVIDIA TRITON支持的模型格式TensorFlow GraphDef/SavedModelTensorFlow and TensorRT GraphDefTensorRT PlansCaffe2 NetDef (ONNX import)多GPU支持模型并发实行HTTP RESTAPIgRPCPython/C+ client librarie#page#中国移动可用METRICSCategoryGranularityNameUse C

3、aseFrequencyPer GPUPer secondProxyforloadontheGPUPowerusagPer GPUPower limitMaximumGPupowerimitPersecondGPU UtizationGPUutiizationratePer GPUPer secondGPU utiization0.0-1.0)TotalGPumemoryinbytosPer GPUPer secondGPU Total MemoryGPU MemoryPer GPUPer secondUsedGPU memory,inbytesGPU Usod MemoryPer model

4、PerrustRequestcountNumberofinferencerequestPer modelParreostNumberof model inferetCountExecution countGPU&CPUbatchingPer modelPer requestInforenoe count“batchsizeinferences)Per modelLatency:roquosttimoPer requestEnd-to-endinferoncorequesthandingtimePer modelPer requestLatencyLatency:compute timeGPU&

5、 CPUqUOstsponds waitng in the quouo before beingPer modelPer requostTimeareLatency:qucuc timeexecutd#page#动态BATCHINGbatch size1withinference on the GPUTRITON Inference Server根据用户的定义,将推理请求组合,从而优化性能1)达到模型允许的最大值P2)达到用户定义的最大等待时间例子:8个客户端请求发送到TRITON Inference Server,dynamicbatcher会等待10ms来整P合一个batch为8的请求,然

6、后将他公区们一起发送给GPU做推理西区区UC#page#模型并发执行-RESNET50TensorRT Inference ServerV100 16GB GPU场景1en例子:12个TRTFP16ResNet50实例(每个需要RequestsResNet1.33GBGPUmemory被加载进GPU,可以在5016GBV100上同时执行。当14并发推理请求产生时:每一个实例同时满足一个请求的运行,另外两个进入队列,等待这12个请求完成后被执行。#page#模型并发执行中国热动RESNET.50&DEEP RECOMMENDERTensorRT Inference ServerV100 16GB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
中国移动九天人工智能平台是一个集成了多种AI能力的平台,旨在为全集团提供AI创新引擎。该平台由深度学习平台和AI能力平台组成,已服务集团内41家单位的160余个AI研发项目,支持全集团研发AI应用近百个。平台具备完善的算力、数据、AI框架等基础设施,汇聚了种类齐全的AI能力。在模型并发执行方面,九天平台支持多个模型在GPU上同时运行,并通过动态Batching优化性能。此外,九天平台还提供了一站式服务,包括模型训练、服务部署和在线推理。平台资源使用流程包括登录控制台、数据集管理、模型训练、模型仓库和预测服务。
"中移九天如何优化AI推理性能?" "如何使用NVIDIA TRITON进行多模型并发执行?" "中移九天人工智能平台的发展历程和成就有哪些?"
客服
商务合作
小程序
服务号
折叠