当前位置:首页 > 报告详情

《数仓建模平台在网易严选的探索实践》.pdf

上传人: 2*** 编号:122837 2023-04-18 30页 4.20MB

1、演讲人:潘松杜网易资深大数据平台开发工程师 2023 背景及现状解决方案实施过程成果和总结背景及现状背景及现状数据集成数仓建模数据访问模型生命周期刻画数据组织数据生产数据数仓建模标准流程模型分层设计准则使用数据意义:从业务数据中来,通过转换、计算、整合,提取有价值的信息,最终反馈给业务,为业务发展持续赋能。业内数据仓库建设的现状业内数据仓库建设的现状背景及现状物理模型万+开发任务近万个指标数千+产品和服务数十个指标定义模型设计指标管理系统模型开发任务运维离线开发平台数据访问对外服务数据服务平台功能欠缺定义无法量化缺乏约束力人工编码逻辑口口相传任务视角的运维字段视角的数据获取独立于建模过程数据溯

2、源困难背景及现状功能边界有限指标定义不规范模型设计不规范模型构建不规范不支持DW层模型的设计和管理没有模型物理化能力无法有效指导模型开发缺乏与任务运维和数据服务关联的能力指标重复定义原子指标命名不规范(如原子指标包含派生词、未包含统计单位)非汇总数据作指标(如预测值)模型命名分层不清晰模型开发线上化率低模型与指标关联混乱(如汇总模型关联原子指标等)旧指标管理系统现状旧指标管理系统现状逻辑与物理模型差异率较高指标重复计算跨层依赖(DM依赖DWD)反向依赖(DWS依赖DM)背景及现状业务复杂业务复杂多变多变数仓体量庞大关系网复杂事前规划事前规划不足不足模型设计能力欠缺指标重定义、描述不规范缺乏严谨

3、性和约束力设计和实现设计和实现脱节脱节开发效率低下职责不清、重复计算依赖关系混乱人工编码引入错误事后治理困难事后治理困难变更过程复杂数据质量无法保障运维管理低效数据孤岛数据孤岛问题问题 痛点痛点数仓建设的痛点数仓建设的痛点指标口径不一致观察视角不统一学习和使用成本高解决方案解决方案1.制定一个标准2.输出一款产品3.落地一套规范能力边界标准流程命名准则依赖关系关联关系.业务过程管理维度管理指标定义模型设计模型构建数据服务绑定.指标定位数据服务数据访问约束模型治理准则任务运维规范.切入点切入点总体目标:建设完整、规范的数仓建模体系解决方案经典维度建模方法论为理论依据结合网易严选数仓建设现状对标阿

4、里DataWorks平台利用大数据其他产品能力指导数仓设计、开发、使用、维护全流程一站式解决方案数仓建模平台定位做做什么什么解决方案怎么做怎么做产品产品框架框架解决方案怎么做怎么做功能功能模块模块实施步骤实施过程3 3步走步走战略战略步骤1:规范指标定义体系建设1.录入旧指标管理系统随意起名指标含义表述不清派生指标设计缺失2.登记在Wiki、Excel文档等3.写在模型物理表字段注释中4.不设计1.切分业务域2.设计维度、生成派生词(业务限定)3.设计业务过程确定所含业务流程业务流程设计业务维度矩阵维度矩阵设计度量度量4.设计原子指标、衍生原子指标关联度量度量明确数据类型类型、汇总方式汇总方式

5、量化描述衍生计算公式计算公式5.设计派生指标、派生计算指标自动自动关联依赖关联依赖的指标确定派生词集合派生词集合和时间周期时间周期中、英文标识自动生成依赖的原子指标的标识。限定派生指标的数据源头、聚合算法、汇总时间戳等信息。统计周期。限定了指标可汇总计算的时间粒度。派生词集合。明确了指标含义的业务限定也就是统计粒度,消除歧义。派生指标名称和标识。系统自动生成,保证指标命名的规范化,提升可维护性。支付成功抖音渠道销售额日派生指标=统计周期+派生词集合+原子指标步骤1:规范指标定义体系建设步骤1:规范指标定义体系建设可描述可查询可验证设计规范达成共识可管理可使用可理解优化规范指标地图指标地图a 指

6、标命名 指标含义、业务限定 依赖情况:派生自什么指标 派生情况:派生出什么指标 产出情况:由什么模型承接 使用情况:被什么模型引用 引用热度:被什么产品查询优势优势a 快速精准定位 降低使用门槛 消除理解歧义步骤2:规范模型设计体系建设1.录入旧指标管理系统命名随意关联指标类型错误等2.DWD、DWS设计没有产品承接3.写在模型物理表注释中4.不设计、直接建物理模型1.设计DWD事实模型关联关联业务过程、度量2.设计DWS底层模型标识自动生成关联关联原子指标、维度模型物理化3.设计DWS汇总模型标识自动生成关联关联派生指标、汇总粒度确定数据更新方式自动发

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了网易资深大数据平台开发工程师潘松杜关于数仓建模的演讲内容。潘松杜指出,当前数仓建设存在诸多问题,如数据集成、数仓建模标准流程、模型生命周期刻画等方面存在功能欠缺和定义不规范等问题。为解决这些问题,他提出了一套解决方案,包括制定标准、输出一款产品和落地一套规范等。具体措施包括规范指标定义体系建设、模型设计规范体系和指标计算和模型构建规范。通过这些措施,网易实现了模型开发效率提升10倍,大大缩短需求交付时间,并解决了指标口径不一致等问题。
"如何实现数据集成与数仓建模的标准流程?" "如何通过规范指标定义提升数据仓库的价值提取能力?" "如何自动化构建数据仓库模型以提高开发效率?"
客服
商务合作
小程序
服务号
折叠