1、DataFunSummitDataFunSummit#20242024数仓模型管理与标签价值评估实践演讲人-李然辉-京东科技-数据资产管理专家京东科技大数据之路此部分内容作为文字排版占位显示(建议使用主题字体)数仓模型管理此部分内容作为文字排版占位显示(建议使用主题字体)标签价值评估此部分内容作为文字排版占位显示(建议使用主题字体)总结与展望此部分内容作为文字排版占位显示(建议使用主题字体)目录 CONTENTDataFunSummitDataFunSummit#2024202401发展历程发展历程DataFunSummitDataFunSummit#2024202402数仓模型管理数仓建设方
2、法论项目规划业务及系统调研仓库架构设计主题模型设计概念模型设计逻辑模型设计物理模型设计开发测试上线部署优化迭代停更下线准备阶段设计阶段开发测试阶段投产阶段一定要分层数仓之父Bill Inmon推出的CIF架构清晰数据结构数据血缘追踪减少重复开发把复杂问题简单化屏蔽原始数据的对业务的影响怎么分层?国内现在较通用的三层架构京东零售数据仓库分层架构 DMx(数据集市层)IDM(整合明细层)SDM(共性加工层)ODM(贴源明细层)DEVDIMSTG(数据缓冲层)京东科技数据仓库分层架构SDPTMP数据模型设计方法范式建模维度建模混合建模每层侧重采用的方法不同DMX(宽表模型)SDM(维度模型)IDM(
3、3NF模型)公共模型层侧重采用维度建模为主,范式建模为辅助的建模设计方法,最大化发挥数据管理、应用性能、灵活扩展等优势m:nm:nm:n一定要做数据探查数据分析验证分类单源数据列分析类型监测异常值监测跨列分析功能相关性分析表分析主键唯一性分析跨表分析外键分析血缘分析多源数据数据覆盖重复值检测字段最小值最大值平均值标准差偏度唯一有效编号12010.55.916-20姓名-2020年龄234936.109.3030.077-19性别-319收入22009200567823770.028-19模型设计数据标准嵌入 业务术语管理 1.先申请后使用 2.产品自动生成 数据血缘关系 字段级算子血缘 1.M
4、apping设计 2.逻辑转换规则 模型评审 评分卡 1.如何评价模型好坏?2.治理原则符合性:eg.中台复用&成本:当前业务场景下该模型是否唯一?DataOps 1.业务参与评审 2.减免逻辑模型设计文档等 数据模型评分卡序号 评分指标评分项评分标准满分评分建议1模型设计完整性满足需求程度XXX 5 2元数据完整性XXX 53模型设计规范性字段规范化XXX 54命名标准化XXX 55模型设计通用性模型扩展性XXX 56模型治理原则符合性唯一性XXX 57模型加工设计专业性模型加工逻辑准确性XXX 58模型加工逻辑可读性XXX 59模型加工文档更新及时性XXX 5总分 模型使用制定模型元数据标
5、准标准制定与执行 1.包括业务元数据、技术元数据、管理元数据在内的共24个属性2.元数据管理系统按照标准进行采集和检查提升模型元数据质量 补充完善 1.对于缺失的元数据要求补充 2.对于不合格的元数据要求完善 监控与通报 1.自动识别元数据不合格的模型 2.定期通报存在元数据质量问题的个人和部门 模型治理数据认责 唯一负责人 1.每个模型必须有一个唯一负责人 2.数据负责人的职责正式化 数据资产移交 1.离职流程加入资产移交审批节点 2.数据资产管理平台提供一键移交便捷操作功能 模型健康度评估 存储健康评估 元数据健康评估 数据安全健康评估 满意度调查和意见反馈 平台功能支持 问卷调研Data
6、FunSummitDataFunSummit#2024202403标签价值评估数据资产价值评估方法来源:Gartner为何及如何衡量信息资产的价值报告标签数据资产价值评估模型数据热度 应用场景经济性(U)标签数据资产价值(BVI)标签质量有效性(V)稳定性(S)覆盖率(C)稀缺性(S)广度(B)深度(P)数据频率(T)标签资产价值评估指标名称:标签质量(quality)权重:10%一、指标定义:通过有效性和稳定性两个维度去衡量标签质量,各占50%1、有效性(vaild):有效性是针对给标签主体打的标签,准确反应事实的对象数量与总对象数量的比例。2、稳定性(stable):标签的枚举值数量分布变