1、中中华华人人民民共共和和国国国国家家标标准准GB/T XXXXXXXXXICS35.030CCS L 80网络安全技术 生成式人工智能服务安全基本要求Cybersecurity technology-Basic security requirements for generative artificialintelligence service(征求意见稿)XXXX-XX-XX 发布XXXX-XX-XX 实施GB/T XXXXXXXXXI目次前言.III1 范围.12 规范性引用文件.13 术语和定义.14 概述.15 训练数据安全要求.15.1 数据来源安全.25.2 数据内容安全.25.3
2、 数据标注安全.36 模型安全要求.37 安全措施要求.4附录 A(资料性)训练数据及生成内容的主要安全风险.6附录 B(资料性)安全评估参考要点.8参考文献.10GB/T XXXXXXXXXIII前言本文件按照GB/T 1.12020标准化工作导则第1部分:标准化文件的结构和起草规则的规定起草。本文件由全国网络安全标准化技术委员会(SAC/TC260)提出并归口。本文件起草单位:本文件主要起草人:GB/T XXXXXXXXX1网络安全技术 生成式人工智能服务安全基本要求1范围本文件规定了生成式人工智能服务在安全方面的基本要求,包括训练数据安全、模型安全、安全措施等,并给出了安全评估参考要点。
3、本文件适用于服务提供者开展安全评估,也可为相关主管部门提供参考。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T 250692022信息安全技术术语3术语和定义GB/T 250692022界定的以及下列术语和定义适用于本文件。3.1生成式人工智能服务generative artificial intelligence service利用生成式人工智能技术向公众提供生成文本、图片、音频、视频等内容的服务。3.2服务提供者service p
4、rovider以交互界面、可编程接口等形式提供生成式人工智能服务的组织或个人。3.3训练数据training data所有直接作为模型训练输入的数据,包括预训练数据和优化训练数据。4概述本文件旨在帮助服务提供者明确生成式人工智能服务网络安全基线、提高服务安全水平,针对当前生成式人工智能服务面临的网络安全、数据安全、个人信息保护等关键问题,提出覆盖服务全生命周期的安全要求,防范化解服务过程中的应用场景安全风险、软硬件环境安全风险、生成内容安全风险以及权益保障安全风险等。针对生成式人工智能服务上线前的模型研发过程,本文件重点关注训练数据来源安全、训练数据内容安全、数据标注安全,以及模型安全。针对面
5、向公众开放后的服务提供过程,本文件重点关注在提供服务过程中应采取的安全措施。5训练数据安全要求GB/T XXXXXXXXX25.1数据来源安全对服务提供者的要求如下。a)采集来源管理:1)面向特定数据来源进行采集前,应对该来源数据进行安全评估,数据内容中含违法不良信息超过5%的,不应采集该来源数据;2)面向特定数据来源进行采集后,应对所采集的该来源数据进行核验,含违法不良信息情况超过5%的,不应使用该来源数据进行训练。注:本文件关注的违法不良信息主要是指包含附录A.1到A.4中29种安全风险的信息。b)不同来源训练数据搭配:1)应提高训练数据来源的多样性,对每一种语言的训练数据,如中文、英文等
6、,以及每一种类型的训练数据,如文本、图片、音频、视频等,均应有多个训练数据来源;2)如需使用境外来源训练数据,应与境内来源训练数据进行合理搭配。c)训练数据来源可追溯:1)使用开源训练数据时,应具有该数据来源的开源许可协议或相关授权文件;注1:对于汇聚了网络地址、数据链接等能够指向或生成其他数据的情况,如果需要使用这些被指向或生成的内容作为训练数据,应将其视同于自采训练数据。2)使用自采训练数据时,应具有采集记录,不应采集他人已明确不可采集的数据;注2:自采训练数据包括自行生产的数据以及从互联网采集的数据。注3:明确不可采集的数据,例如已通过robots协议或其他限制采集的技术手段明确表明不可