1、Aloudata主动元数据,DataOps 建设新点应科技/赵尉淋2024/8/17关于我 20年数据领域经验,应科技联合创始,现任席数据架构师和客户成功官,对融业务数智化有深刻理解和丰富实战经验 原蚂蚁集团、菜集团数据平台部数据架构师。菜物流数据体系主要设计者和建设者。曾主导蚂蚁集团2020年全域数据架构升级和治理作录 CONTENTDataOps 体系的背景与建设标主动元数据平台是 DataOps 体系的新点什么是主动元数据平台什么是算级缘DataOps 体系的背景与建设标现代数据程架构弊端显现,协同难、管理难、交付难数据协同难企业数据应场景增加,参与数据管道构建团队增多,数据管道持续增,
2、下游团队持续增多,数据管道“烟囱化”越来越严重,形成益复杂的作流和数据流数据管理难数据量成倍增加,ETL 任务成倍增,ETL 程师均维护数据流中的表和数据管道的数量成倍增加,依靠 ETL 程师很难在度复杂数据流中找到优化案数据交付难越来越多的业务场景要求需求响应效率从/周到天/时,数据分析更灵活性,持多维度明细下探,强调数据分析致性,以及技术上成本、险的平衡具态和链路复杂性剧烈膨胀的现代数据程架构加剧数据协同与管理、交付困境按时按质数据交付How?DataOps架构理念:数据旅程各环节紧密衔接,快速响应需求 旅程紧密衔接 流程动流转 需求快速响应DataOps 突破现代数据程架构困境,实现“数
3、据优先”n DataOps 价值主张:通过“端到端”打通数据流线,打破“点对点”的低效数据协作流程,实现“递”的数据价值释放。n 通过引 DataOps,实现“数据优先程架构”:定位:向数据管理做优化标:追求数据的可性(不迟、不错、不重、不漏)机制:核产出数据资产,数据运维式隐式,尽量动化站式、体化建设动化、智能化发展DataOps 体系建设的“个标、两个实现”从“盯”升级成“事盯”实现敏捷数据协同从“治”升级成“机治”实现主动数据管理数据优先即业务优先效交付质量数据流程优化技术升级敏捷、可靠、动主动元数据平台是 DataOps 体系的新点主动元数据:动态、智能化的元数据管理技术n变传统元数据
4、的被动等待为实时在线、主动触发,为数据的管理和开发决策提供动化持n推动数据探查、开发、测试、部署、运维和监控等 DataOps 作流效运转全 包括数据表的元数据,涵盖了脚本、模型、指标、报表以及数据使为等与数据相关的所有元数据精 准通过动化采集、动态更新、多种解析法和智能挖掘,构建全、准确且实时更新的算级数据缘图谱智 能能够实时监控数据变更,预测数据质量问题和合规险,并提供智能化的建议从被动到主动,实现数据管理的“动驾驶”被动元数据主动元数据元数据管理范围元数据采集式元数据更新式元数据解析式元数据智能挖掘元数据服务式元数据应场景以表为主录为主偏静态,触发单法,法保证解析准确率被动等待数据理解、
5、调度依赖配置等少数场景元数据管理范围元数据采集式元数据更新式元数据解析式元数据智能挖掘元数据服务式元数据应场景表、脚本、模型、指标、报表、任务运状态等切与数据相关的元数据动采集为主动化,动态更新多种式,确保解析准确率精准标签扩散、动径提取、相似资产识别、代码动产与改写等实时在线,主动触发增强数据发现&理解、溯源盘点、影响分析、资产判重、动分类分级、质量监控等全部 DataOps 活动数据流(有“治”):实现主动数据管理DataOps 体系建设分层及主动元数据的必要性探查开发测试运维监控属性产出物SLA交付标准稽核规则数据责任岗位职责作活动数据合约对数据湖仓数据加数据流转数据出湖仓业务应数据物理
6、搬运解耦数据语义定义指标平台数据编排智能物化数据链路数据虚拟化结合模型的 ETL Copilot 能作流(有“序”):实现敏捷数据协同控制流实时采集实时解析实时分析驱动作流、数据流敏捷流转和持续迭代感知决策主动元数据平台什么是主动元数据平台主动元数据平台为 DataOps 体系建设提供基座持算级缘解析元数据语义挖掘主动元数据服务反向元数据集成基于语义分析技术实现对 SQL 脚本的算级动解析和算级缘图谱构建,实现了对全域字段计算语义的精准刻画动抽取字段算级加径,结合上下游元数据信息挖掘业务语义,动成业务描述;对元数据进分类、关联分析等,实现全域数据分类和盘点报告基于对元数据的深分析和挖掘,可提供