1、中国面向人工智能的数据治理行业研究报告2022.3 iResearch Inc. 击破业务落地要害22022.3 iResearch Inc. 摘要来源:艾瑞研究院自主研究绘制。实践-高频高价值应用及数据痛点:本篇报告选择金融、零售、医疗和工业四大典型行业为切入点,分析呈现各行业的信息化建设阶段与高频高价值的AI应用场景,并基于高频高价值AI应用引发的数据治理需求,对面向人工智能的数据治理体系搭建给到建设指导。展望-治理陷阱与趋势洞察:1)企业需避免落入“数据埋点大而全”的治理陷阱;2)供需两侧需共同保证数据治理体系建设后的运营流转;3)企业需建立符合管理现状及发展需求的数据安全治理框架,确保
2、数据全周期的安全与合规;4)联邦学习技术可带来数据安全合规线内的共同富裕;5)数据的“自治与自我进化”成为未来数据处理发展的必由之路,为企业打造“治理+AI”体系的良性循环。前言-数据与数据治理:如今数据不再局限于传统数字形式的认知,由结构化数据延伸到半结构化、非结构化的数据范畴。数据治理越来越受到企业的普遍重视,在数据生命周期的各个阶段通过相应的工具与方法论,使数据发挥出更大的价值,是实现数据服务与应用必不可少的阶段。参与-行业规模与受益圈立足点:数据治理与AI应用产品开始交汇融合,厂商参与更加多元,咨询公司、数据服务提供商和人工智能产品服务商三方阵营构建行业竞合格局,而“智”,即AI应用,
3、为面向人工智能的数据治理服务的核心立足点。2021年面向人工智能的数据治理市场规模约为40亿元,预计五年后规模将突破百亿。主题-面向人工智能的数据治理:AI技术创新应用走向大规模落地,带动了大数据智能市场的蓬勃发展。2021年大数据智能市场规模约为553亿元。目前传统数据治理体系多停留在结构性数据化治理工作,尚难满足AI应用对数据的高质量要求。企业可吸收传统体系的智慧沉淀,以AI应用数据需求为核心,优化建设“面向人工智能的数据治理”体系,显著提升AI应用的规模化落地效果。SMS3前言:数据与数据治理1主题:面向人工智能的数据治理2参与:行业规模与受益圈立足点3实践:高频高价值应用及数据痛点4案
4、例:标杆企业与新锐势力5展望:治理陷阱与趋势洞察642022.3 iResearch Inc. 数据:范围界定信息经济的“货币”,早已不限于数字形式数据的价值被不断认可,“数据资产化”已经成为了企业发展的重要组成部分。长期以来,数据被理解为以数字形式存储的信息,而目前技术可以测量更多的事件和活动,人们可以收集、存储并分析这些不被视为传统数据的各类信息,如邮件、图片、音视频等。数据可根据其特性及治理方法差异划分为内部数据与外部数据,结构化数据、非结构化数据与半结构化数据,元数据与主数据等。来源:艾瑞研究院自主研究绘制。企业数据的主要类型企业内部数据按照数据来源分类在企业内部经营中产生的数据,在企
5、业的业务流程中产生或在业务管理规定中定义,受企业经营影响企业外部数据企业通过公共领域合规获得的数据,其产生、修改不受公司影响按照数据格式分类结构化数据可以存储在传统的关系型数据库中,用二维表结构来表达实现的数据,可以用关系型数据库存储非结构化数据形式相对不固定,不方便用数据库二维逻辑表来表现的数据,通常存储在非关系型数据库中,数据量通常较大半结构化数据介于结构化与非结构化之间,半结构化数据可以通过灵活的键值调整获取相应信息,且数据的格式不固定元数据是描述数据的数据(描述性标签),描述了数据(如数据元素、数据模型)、相关概念(如业务流程、应用系统、软件代码、技术架构)以及他们之间的联系国家、币种
6、、汇率合同、项目、组织日志文件、XML文档、JSON文档、Email等Excel表格、 SQL数据库里的数据文本、图片、HTML、各类报表和音频、视频主数据描述企业核心实体的一组一致而统一的标识符和拓展属性,实体可包括现有或潜在客户、产品、服务、员工、供应商、提供商、层次结构和会计科目表等实时数据是在收集后立即传递的信息,所提供信息的及时性没有延迟数据治理常用数据类型分类标准定义以及特征数据类型举例实体型组织、客户、人员基本配置数据标准、业务术语、指标定义实时OLAP场景下的数据数据抽象的内容,独立时无意义信息经过收集和整理的数据智慧经过人为解读和经验充实的信息产生辨析判断、发明创造能力知识5