1、网易云音乐机器学习平台演进网易云音乐机器学习平台演进与在推荐场景的实践与在推荐场景的实践骆庚骆庚-算法平台研发专家算法平台研发专家目录目录03总结与规划总结与规划相关技术点的总结与未来规划02实践案例实践案例云音乐机器学习平台在推荐场景下的工程实践01背景概览背景概览云音乐机器学习平台建设的相关背景和演进历程背景概览背景概览01云音乐推荐应用云音乐推荐应用场景场景算法算法工程面临的工程面临的问题问题1 1共享共享共建共建4 4模型模型效果效果2 2建模效率建模效率3 3服务服务性能性能业务收益业务收益时间时间迭代迭代周期周期模型效果模型效果成本成本=(/-)*机器学习机器学习平台演进历程平台演
2、进历程算法实时化算法实时化系统系统MLOpsMLOps机器学习机器学习平台平台FeatureStoreFeatureStore特征特征平台平台机器学习机器学习全链路诊断全链路诊断为了达到更好的推荐效果,我们以推理实时化、特征实时化、模型实时化为目标建设了一批机器学习系统。我们基于K8S云原生架构,以ML-Ops理论为基础打造了云音乐机器学习平台,提升了算法团队建模的效率、质量和可靠性。基于我们的特征数据中心Datahub、高性能分布式存储引擎Tair打造的特征平台,以提高建模过程的特征工程效率。从模型训练前、中、后三个阶段的视角出发,建设了覆盖模型全生命周期流程的机器学习诊断系统。平台平台整体
3、架构整体架构平台成果平台成果高并发、低高并发、低延迟延迟性能好性能好建模周期建模周期短短效率高效率高覆盖覆盖MLOpsMLOps全流程全流程功能全功能全 推理服务日访问量100亿+次,RT在30ms以内,比开源方案提升2倍左右。特征服务峰值QPS超过500W+/s,RT在5ms以内。基于MLOps理论,打造了标准化的AI建模流程产品,助力算法团队提升生产效率,建模周期缩短75%左右。平台覆盖了从特征工程到模型运营监控的模型生命周期全流程,辅助算法团队在建模各个阶段提升效率,已经应用在云音乐8大业务场景,100+模型场景。实践实践案例案例02机器机器学习建模学习建模流程流程实践导航实践导航特征工
4、程特征工程模型训练模型训练模型服务模型服务模型运营模型运营特征特征工程工程云音乐云音乐Feature StoreFeature Store 特征管理 特征服务 特征计算引擎 特征质量监控 存储引擎特征特征工程工程特征特征管理管理 特征注册 元数据管理 特征发现 特征血缘 特征上线特征特征工程工程特征计算特征计算引擎引擎 DSL语法编译器 统一编排引擎 跨语言算子库 任务生成器特征计算特征计算DSLDSL:模型特征描述模型特征描述MFDLMFDL:BucketBucket(SmoothSmooth($($t1.t1.feafea1 1),$vocab,$vocab)OP表特征嵌套OP变量特征特征
5、工程工程高性能的特征高性能的特征存储存储 推理服务本地缓存 内存型存储(MDB)磁盘型存储(RDB)RDB-Bulkload RDB-KV分离 特征快照存储(FFDB)casecase:实践导航实践导航特征工程特征工程模型训练模型训练模型服务模型服务模型运营模型运营模型模型训练训练MLOpsMLOps模型训练平台模型训练平台 云原生深度优化 模型自动化CI/CD/CT 模型生命周期管理 统一训练框架模型模型训练训练MLOpsMLOps模型训练平台模型训练平台 云原生深度优化 模型自动化CI/CD/CT 模型生命周期管理 统一训练框架实践导航实践导航特征工程特征工程模型训练模型训练模型服务模型服
6、务模型运营模型运营模型模型服务服务高性能推理高性能推理引擎引擎 纯异步推理服务 特征与模型同进程计算 多级缓存机制 高性能模型输入 模型加载优化 NUMA绑核优化模型模型服务服务模型实时化模型实时化 模型服务旁路流量 特征快照落盘 实时样本拼接 模型增量训练模型模型服务服务模型模型实时化实时化 模型服务旁路流量 特征快照落盘 实时样本拼接 模型增量训练实践导航实践导航特征工程特征工程模型训练模型训练模型服务模型服务模型运营模型运营模型运营模型运营监控模型生命周期的各监控模型生命周期的各个阶段个阶段 训练前:训练前: