1、B站的 数据治理运营框架 实践高隆 bilibili 数据仓库工程师高隆“表哥DAMAB站数据成本治理数据质量”讲师简介分析工具:DAMA-Bok案例1-2022-05-11 存储水位风险虚拟组织嵌入治理元数据管理案例2-2023-10-30 数据丢失复盘质量运营质量的需求与满足数据治理中的风险目录数据管理知识体系数据管理知识体系DAMADAMA-DMBOKDMBOKDAMA 成立于 1980年,是一个全球性数据管理和业务专业志愿人士组成的非营利协会,致力于数据管理的研究和实践*左上图是买书的时候送的鼠标垫1 1车轮图:11个知识领域2 26边形图:每个知识领域的7件事情1 12 23 312
2、原则:采取行动和判断时的依据4 4语境关系图:每个知识领域都可以展开成具体的活动、方法、目标、指标3 34 案例1-2022-05-11 存储水位风险名词解释:存储水位:HDFS集群存储 部门数管:部门的“CDO”Quota:部门预算资源分配 A级数据:多为跨部门使用数据 Trash 数据:一般存7日案例背景案例背景问题与挑战预案执行项问题DAMA Bok4级(90%)通知数管执行治理组织变更数管权责不明确原则:数据管理需要领导力承诺领域:数据治理3级(93%)删除长期无访问数据没有执行驱动力删除数据存在风险原则:数据价值使用经济术语表达领域:元数据2级(95%)删除 trash调整冷数据容量
3、trash类 数据如何归属用户没有直接控制trash大小的能力原则:数据管理需求驱动技术决策领域:数据存储1级(97%)根据分配限制部门写入组织变更预算归属变更限制数据写入风险极高原则:数据管理是数据生命周期的管理领域:数据仓库与商务智能破题思路问题DAMA Bok方案Part1组织变更原则:数据管理需要领导力承诺领域:数据治理虚拟组织数委会(人的虚拟组织)资产空间(数据的虚拟组织)Part2限制数据写入风险极高原则:数据管理是数据生命周期的管理领域:数据仓库与商务智能嵌入治理预算分配QuotaLimit(限制“新增”)Part3没有执行驱动力原则:数据价值使用经济术语表达领域:元数据元数据的
4、管理与应用元数据数仓资产账单数据治理平台破题思路 变更方案Part1Part2PPart1:数委会-组织5%20%80-85%问题应该在该层解决组织中的决策层组织中的决策层数据委员会数据委员会数据空间团队数据空间团队治理单元管理团队治理单元管理团队组织目标组织目标数据目标数据目标长期规划长期规划Part1:数委会-角色5%虚拟资源虚拟资源01资源分配资源分配+运营成本运营成本02资源管理资源管理 元数据元数据Part3:元数据的管理-元模型Part3:元数据的管理-元数据的指标与标签*关于“指标 标签”与“道行数知名”道数名知行案例2-2023-10-30 数据丢失复盘案例背景(2线6问)问题
5、与挑战问答DAMA BokQ1 该问题属于 数据质量维度 中的什么问题?数据完整性问题原则:数据管理即使对数据的质量进行管理领域:数据质量Q2 什么原因导致测试没发现?技改迁移,历史组件缺少信息收集原则:数据管理需要元数据领域:数据架构Q3 什么原因导致监控并不是第一时间发现?告警 监控了,表全部为空才会告警,延迟了半天原则:数据价值使用经济术语表达领域:数据质量Q4 该问题 是否可以做 兜底/容错?下游有兜底逻辑 可以缺失一定的数据原则:数据管理需要全景视角领域:数据质量Q5 如何能提升问题的解决速度、降低损失?数据提供方 应该感知下游数据应用的重要等级原则:数据管理需要全景视角领域:数据质
6、量Q6 怎样能有效避免此类问题的再次发生?数据服务方 应该感知下游数据应用的重要等级原则:数据管理是跨功能的领域:数据质量破题思路问题DAMA Bok方案历史组件缺少信息收集?原则:数据管理需要元数据领域:数据架构各类组件都应具备自回收能力,基于该能力补充需要的元数据与功能更流程能否不等表全部为空就可以发出告警原则:数据价值使用经济术语表达领域:数据质量数据传输链路中需要 增加完整性监控方案是否下游都有兜底逻辑?原则:数据管理需要全景视角领域:数据质量重要数据下游使用方需要明