1、安全AI平台GPU实践和思考又可2020/11#page#提纲总结快速响应需求GPU利用率背景性能优化#page#问题域安全AI平台相关角色稳定监管权利人消费者快速生产快速部署快速升级快速扩展赵居庭平台方商家快速开放性能送代核心问题核心诉求秒级风险螺光延时赋能业务平台毫秒级排查体验联合集团优质服务风险类风险变湖效果化快成本研发/运维/机器#page#业务背景外部内部服务生态小红书淘宝天猫钉钉饿了么微博优酷安全业务商品合规知识产权天眼安防阿里云绿网内容安全文本行为图像/视频生物特征实体基础文本图像视频人脸动作OCR算法识别表征分类分析识别分类识别能力目标关键相似视频语音相似行为ReiD检测特征词
2、特征表征指纹分析EMON安全A平调度平台媒体服务模型平台搜索平台FissionQuakeANNXInsight台#page#平台架构搜索平台ANNX模型平台Quake模型训模型服索引构索引服模型编务分布式弹性训练码本训练索引自动分片编译优化Batch/Stream索引构建GPU支持多框架支持模型自定义多种学习范式【常规/小样本/迁移】模型pipeline元数据存储硬件算子库实时增量服务算子库多框架支持模型/任务管理多硬件支持索引评测混合检索调度平台Fission资源治服务部署/开放智能调度混部透明部署服务市场弹性计算任务编排资源池多租户基础设施依赖软硬一体化云原生存储TensorRT/GPU其
3、它OTSOSSASINaitve K8S#page#服务规模数十数百数百数干百亿租户/场景服务模版服务合约流量/天GPU#page#演进历史GPU利用率!规模化部署快速响应需求!快速响应需求II部署性能优化!性能优化IIGPU利用率II2017201820192020数干数干数十数百#page#提纲总结快速响应需求GPU利用率背景性能优化#page#问题与挑战模型算法复杂众多成本瓶颈上限挑战高昂低海量检索延时#page#路径serving序列化量化Dynamic Batch内存池Stream/overlap检索模型推理PluginsL2Norm点积双调排序算子融合内存重排数据裁剪TensorR
4、TCUDA/cuBLASMLPerfNsight Systems/Compute#page#小结GPU P100相对于CPU8c相对于未优化GPU算法相关模型性能增长性能增长12c CPU图像分类280qps15X4.6XResnext101NA1.4X图像特征D2-Net120qpsRefinedet检测目标检测80qpsNA3XResnet18识别基于Resnet50检测OCR39X8.9X99qps基于CNN+CTC识别2基于Resnet18检测9X2.5X人脸特征基于CNN关键点174qpsResnet100识别NA检索PQ11X600gps/10ms备注按GPU单卡配置与CPU单核的
5、价格比是20:1估算端到端的评估限制CCPU瓶颈限制#page#提纲小结GPU利用率快速响应需求背景性能优化#page#问题与挑战模型增量升级爆发开放性效率挑战低多强浙进增强硬件定制优化复用多框架#page#路径服务层ServicePipeline算法层模型节点定制节点IOTensorRTpluginslibtorch编译模型层IRParserBackendCVTorchScriptControlONNXFrozen PB/UFF#page#小结开放浙进模型多层编译算子库优化计算图#page#提纲总结快速响应需求GPU利用率背景性能优化#page#问题与挑战资源任务业务存量增长庞大资源多低务弹
6、性样性利用率低资源服务外部突面向资源约束挑战竞争峰谷稳定性的任务调度发流量调度效应隔离硬件服务服务限制瓶颈大量长瓶颈尾服务可压缩比硬件配比#page#路径资源维度方案原型任务维度服务任务峰谷效应调度隔离弹性混部可抢占保障型任务任务QuotaRequestLimi任务任务瓶颈在线服务训练任务虚拟化优化延时敏感任务常规离线任务#page#服务弹性“策略中心周期指标资源刻画动态调度预测策略指标中心天级级别计划生成计划执行模式中心动态策略目标函数分钟级别结果一些限制以70%作为目标,