1、数据标注产业发展研究报告数据标注产业发展研究报告(2025(2025 年年)中国信息通信研究院人工智能研究所中电信人工智能科技(北京)有限公司2025年8月版权声明版权声明本报告版权属于中国信息通信研究院、中电信人工智能科技(北京)有限公司,并受法律保护。转载、摘编或利用其它方式使用本报告文字或者观点的,应注明本报告版权属于中国信息通信研究院、中电信人工智能科技(北京)有限公司,并受法律保护。转载、摘编或利用其它方式使用本报告文字或者观点的,应注明“来源:中国信息通信研究院、中电信人工智能科技(北京)有限公司来源:中国信息通信研究院、中电信人工智能科技(北京)有限公司”。违反上述声明者,编者将
2、追究其相关法律责任。违反上述声明者,编者将追究其相关法律责任。前言前言习近平总书记指出,数据是新的生产要素,是基础性资源和战略性资源,也是重要生产力。党的十九届四中全会首次提出将数据作为生产要素。新一代高水平数据标注在推动数据资源汇聚、提升数据质量、激活数据要素价值方面发挥着日益重要的作用,是支撑人工智能技术演进和应用落地的重要抓手。2024 年 12 月,国家数据局印发关于促进数据标注产业高质量发展的实施意见(以下简称实施意见),对数据标注产业高质量发展具有重要的意义。我们要紧紧抓住数据标注这个小切口,以服务国家战略大视野,着力推动产业高质量发展。数据标注在人工智能产业结构中占据举足轻重的地
3、位,是连接数据资源、算法模型与实际应用场景的关键桥梁,是人工智能高质量数据集的核心生产力。狭义的数据标注产业是指将原始数据标记人类知识转换成机器可识别信息的过程。广义的数据标注产业通常指对数据进行筛选、清洗、分类、注释、标记和质量检验等加工处理的过程。当前,以数据标注为代表的人工智能基础数据服务,连结上游数据来源方和下游人工智能算法研发方,其产业发展和服务水平直接影响人工智能应用效果和场景落地。本研究报告首先回顾了数据标注产业发展的总体概况,全面总结了数据标注产业发展的六大核心要素,提出了当前数据标注产业发展面临的问题与挑战,分析了未来数据标注产业发展总体趋势,提出数据标注产业下一步发展的建议
4、,可为政策制定者、行业从业者及企业投资者等提供全面的行业洞察、策略建议与决策依据。面向未来,数据标注产业发展仍存在诸多问题与挑战,还需要产学研各界紧密合作,共同推进数据标注产业技术创新与产业发展,为行业高质量数据集的构建和大模型训练提供有力支撑。本报告由国家数据局数字科技和基础设施建设司指导,中国信息通信研究院联合中国电信集团、沈阳市数据局等多家单位联合编制,撰写过程中得到了中国人工智能产业发展联盟数据委员会、数据标注专委会、人工智能关键技术和应用评测工业和信息化部重点实验室的大力支持。报告先后征求并采纳清华大学、北京理工大学、航天二院、赛迪网安所等多位专家意见,以及国家数据局综合司、政策司、
5、资源司、数经司、国合专班意见,形成相关研究成果。目录目录一、数据标注产业总体概况.1(一)数据标注定义范畴.1(二)数据标注方式类型.3(三)数据标注服务模式.5(四)数据标注产业结构.6(五)数据标注发展意义.7二、数据标注产业发展现状和机遇.10(一)“央地一体”的政策体系初步建立.10(二)大模型蓬勃发展带来新的数据标注需求.18(三)数据标注行业与市场蓬勃发展.22三、数据标注产业发展核心要素与实践.24(一)技术创新.25(二)行业赋能.27(三)生态培育.30(四)标准应用.32(五)人才培养.35(六)安全保障.37四、数据标注产业发展趋势.38(一)高技术含量.38(二)高知识
6、密度.40(三)高价值应用.41五、推动数据标注产业发展的建议.42(一)不断加强数据标注技术创新能力.42(二)持续提升数据标注行业赋能水平.42(三)积极完善数据标注生态体系.43(四)大力推动数据标注标准编制和应用.43(五)着重强化数据标注人才培养力度.44(六)切实保障数据安全可靠.44图 目 录图 目 录图 1 广义的数据标注产业定义.2图 2 数据标注产业链情况.6图 3 大模型数据需求海量增长.18图 4 大模型的各类型训练数据投入构成.19图 5 大模型的训练数据来源构成.19图 6 数据标注产业发展聚焦六大核心任务.24图 7 多模态数据智能标注平台总体架构.26图 8 医