《腾讯音乐 吴泽君-腾讯音乐慢慢变聪明的数据算法服务平台.pdf》由会员分享,可在线阅读,更多相关《腾讯音乐 吴泽君-腾讯音乐慢慢变聪明的数据算法服务平台.pdf(30页珍藏版)》请在三个皮匠报告上搜索。
1、腾讯乐慢慢变聪明的数据平台吴泽君我介绍吴泽君?其中4 年,全国最婚恋数据平台建设经验10年+数据平台服务建设现负责腾讯乐集团智能计算分析、数据治理和机器学习平台建设设计开发OLAP、实时计算、数据治理、降本增效、机器学习指标、数据表、设备帐号、乐知识库等数据教练、动解读等关于本次分享TME?集团多业务https:/ CDH懒IDC CDH数据接数据指标跨业务数据互通临时分析计算数据时效和可靠性数据可视化Clickhouse:大规模即席实时计算Superset:敏捷的数据自由探索与数据可视化平台,xx%非数据同学Flink:大规模的秒级实时计算TDW(Hadoop+Hive):离线数据Mysql
2、+罗盘:需求驱动,数据报表建设1.0 BI数据分析KBOSS+Spark:大规模实时流式(微批)计算Hermes:千万级用户圈层分析Kylin:预计算解决多维度分析需求2.0 业务数据分析3.0 交互式数据分析星画:全域数据资产画像平台星云:星云数据算法融合引擎Cube:分布式机器学习平台ABT:支持集团 xx+APP同时进行xxx+在线实验数据治理:集团数据统一管理规范落地和业务分析模型复用4.0 集团数据互通TME 围绕性能效率演进的数据平台XxXxxx xXxxXxx看:中化元数据看:中化元数据传:数据助接传:数据助接存存&?&?算:业务有数据中算:业务有数据中多方业务数据共享封闭域算:
3、智能计算引擎算:智能计算引擎0101元数据共享元数据共享0202按需同步数按需同步数据据0404 去中化多源计算去中化多源计算0303 中化共享计算中化共享计算各BU数据中心集团数据中心提升集团“找”数据、“”数据和“看”数据的效率智能的数据异动归因数据报表的智能解读数据资产的融合互通数据与知识库的融合然语到数据报表数据开发copilotSupercase案例库多元的数据分析5.0 聪明智能TME 聪明智能的数据平台业务童鞋终端童鞋事件事件:播放按钮曝光事件、播放事件该取什么名字?触发触发:曝光:渲染时?户看到时?停留1秒以上?播放播放:按钮点击?发起请求?返回成功?参数参数:有哪些参数?参数
4、该取什么名字?填什么值事件事件:播放按钮曝光事件、播放事件参数参数:加个必要参数事件事件:事件膨胀(播放按钮曝光、歌单播放、社区播放按钮曝光、分享)传承难度,管理成本指数上升参数参数:各个模块上报的参数不统,命名不规范 上报时机不致导致数据径不统数据童鞋数据对不上数据径不明确上报时机对不齐字段命名不统测试debug困难字段命名不规范事件维护成本测试困难,验证周期长数据埋点上报橙色:需求管理流蓝色:数据管理流参数池元素池实时校验测试/灰度需求流转协议规范协议规范需求翻译数据上报上报质量报告业务童鞋 测试童鞋数据童鞋终端童鞋推荐页参数详情页参数听歌参数基础数据开发业务数据开发数据清洗,配置映射转换
5、,画像,特征、曲库,实时宽表计算、向下游提供可信的dwd数据制定落地数仓规范数据主题域,分析模型DC事件管理原始数据接入配置映射关系结构化可信一致性维度基础指标汇总统计主题分析基础ETLDWSDWM业务流程事实表DWD行为轨迹拼接公共维度表层DIM个性化指标离线&在线分析及效果展示元数据ClickHouse+Superset数据上报产全流程检测数据源DQ 数据质量集市层元数据信息SLA 信息DQ 配置实时数据DWODSDQ 数据模型上报管理配置管理引擎质量结果库DQ 系统功能过程监控问题跟踪实时同步知识库配置管理基线分析耗时性能依赖分析机器学习运行质量分析热度资源广度模型模型变动存储空间模型监
6、控业务指标数据质量业务波动实时动态业务监控质量监控健康度分析故障跟踪监测定级DQ 质量分析核检查规则,提取公共特征和模型,来定位数据质量原因,进数据质量问题的预测,并进步形成知识库,进增强数据质量管理能。数据上报质量保证体系建设1.异常检测:检测户/设备/画像等多维度的数据波动2.数据质量预测:预测未来的数据质量3.动化埋点:根据户的为和应的特性,动选择最佳的埋点位置和事件4.数据质量优化:根据数据的质量和其他相关因素(如数据的重要性、数据的使频率等)来优化数据的处理式5.数据审查:提数据审查的效率和准确性。多维度的数据质量保证万亿级弹性数据消费同步PB级数据多分多数据中Kubernetes容