1、 数据虚拟化在数据网格中的价值数据虚拟化在数据网格中的价值 研究赞助商:作者:Mike Ferguson 智能商业策略 2022 年 1 月 白白皮皮书书 数据虚拟化在数据网格中的价值 版权所有 Intelligent Business Strategies Limited,2022,保留所有权利 2 目录目录 什么是数据网格?什么是数据网格?.3 数据网格试图解决什么问题?.3 什么是数据产品?什么是数据产品?.6 数据网格中数据产品的类型.6 物理数据产品.7 虚拟数据产品.7 存储查询即服务.7 在数据网格中使用数据产品并生成新数据产品.7 数据网格成功的关键功能数据网格成功的关键功能.
2、8 业务术语表.8 数据目录.8 通用数据基础架构软件.8 企业数据市场.8 数据虚拟化在数据网格中的作用数据虚拟化在数据网格中的作用.9 利用数据虚拟化进行面向域的数据产品开发.9 敏捷地创建数据产品.9 对数据产品进行业务定义.9 为数据产品创建虚拟数据视图.9 利用数据虚拟化使数据产品实现面向域的模式演变.10 利用数据市场在数据网格中发布数据产品.10 利用数据虚拟化使用数据产品.12 使用数据虚拟化的数据目录来查找业务就绪的数据产品.12 通过数据虚拟化在去中心化的数据网格中使用数据产品.12 从其他数据产品中构建新产品.13 利用数据虚拟化实施联合数据治理.13 数据网格中常见的数
3、据治理方法.14 全局和本地数据治理.15 治理对数据源的访问.15 无需移动即可共享数据.15 数据隐私.16 治理对数据产品的访问.16 结语结语.17 数据虚拟化在数据网格中的价值 版权所有 Intelligent Business Strategies Limited,2022,保留所有权利 3 什么是数据网格?什么是数据网格?数据网格是一个数据架构概念,两年半前发表的一篇文章1首次对此概念进行了定义。从那时起,人们对数据网格的兴趣便开始迅速增长。基于一种去中心化的面向业务域的方法,能够生成可信的、可重用的数据集(被称为“数据产品”),进而供整个企业共享和使用。这样做的主要目的是在分析
4、环境中使用这些数据产品。数据网格的概念基于以下四大原则:面向域的去中心化的数据所有权和架构 数据即产品 自助式数据基础架构即平台 联合计算数据治理 数据网格背后的理念是,每天处理特定数据的业务域人员利用自助服务基础架构软件来创建管道。这些管道从该业务中使用的应用程序数据源获取数据,并生成在数据网格中可用的数据产品。图 1 这种方法的一个关键目标是通过培训业务专业人员,加速创建和提供可信的、高质量的合规数据,以便供整个企业共享,而不是一直都依赖于可能无法跟上需求的步伐的集中式 IT 团队。IT 专业人员可以加入到业务域,帮助实现这一目标。数据网格试图解决什么问题?数据网格试图解决什么问题?值得一
5、问的是:数据网格试图解决什么问题?要解释这个问题,我们需要先了解数据已经和正在发生的变化。1 如何从单体数据湖迁移到分布式数据网格,Zhamak Dehghani,2019 年 5 月 数据网格是一种去中心化的方法,能够生成可信的、可重用的数据集,该数据集被称为“数据产品”业务域的主题专家使用自助服务工具来创建管道,这些管道可以生成数据产品领域 每个域都拥有并创建可在企业其他地方使用的数据产品 许多新数据源不断涌现,企业希望对其进行分析 数据虚拟化在数据网格中的价值 版权所有 Intelligent Business Strategies Limited,2022,保留所有权利 4 当下越来越
6、多的新数据源不断涌现,其中就包含了公司现在想要分析的数据,包括交易数据库中的传统结构化数据、机器生成的数据(例如点击流数据、基础架构日志数据和物联网数据)以及人工生成的数据(例如入站电子邮件、网上聊天、语音和社交网络数据)。所有这些数据已经并且正在被创建和引入到多个不同的应用程序以及同时位于本地和多个云端的数据存储中。数据也在边缘的物联网设备中流式传输。由此产生的结果是,现在许多公司在不同的分析系统(本地和云端两者)上运行不同的分析工作负载,进而分析这些数据的重叠子集(见图 2)。图 2 这些分析系统是集中式的,也就意味着系统要先将数据传到中央系统,然后才能清理、转换、集成和分析该数据。然而,