1、 探索人工智能和探索人工智能和 自主系统的合成数据自主系统的合成数据 入门指南入门指南 HARRY DENG 探索人工智能和自主系统的合成数据入门指南 i 致谢致谢 裁研所核心资助者的支持为裁研所的所有活动奠定了基础。本出版物由欧盟资助,是裁研所安全与技术计划的一部分,该计划得到了捷克、法国、德国、意大利、荷兰、挪威、瑞士和联合王国政府以及微软公司的支持。作者感谢Giacomo Persi Paoli博士和Ioana Puscas博士为本文提供的建议和帮助,感谢Tim Watson教授和Leslie Sikos博士为本研究做出的宝贵贡献。关于裁研所关于裁研所 联合国裁军研究所(裁研所)是联合国
2、内部一个由自愿捐款供资的自主机构。裁研所是世界上为数不多专注于裁军的政策研究所之一,提供裁军与安全方面的知识,并促进这方面的对话和行动。裁研所总部设在日内瓦,协助国际社会提出切实可行的创新想法,以找到解决重大安全问题的办法。引文引文 H.Deng,探索人工智能和自主系统的合成:入门指南,瑞士日内瓦:裁研所,2023年。注注 本出版物所使用的名称和材料的编排方式并不意味着联合国秘书处对任何国家、领土、城市或地区或其当局的法律地位,或对其边界或界线的划分表示任何意见。出版物中表达的观点仅由作者本人负责,不一定反映联合国、裁研所、其工作人员或赞助者的观点或意见。www.unidir.org 裁研所
3、2023 探索人工智能和自主系统的合成数据入门指南 1 目录目录 关于安全与技术方案关于安全与技术方案.2 关于作者关于作者.2 缩缩写与缩写与缩略语略语.3 内容提要内容提要.4 导言导言.5 1.了解合成数据了解合成数据.6 1.1 什么是合成数据?.6 1.2 现有数据挑战.7 1.2.1 专题1数据管理.7 1.2.2 专题2数据质量.8 1.3 生成合成数据的方法.9 1.3.1 基于规则的方法.9 1.3.2 基于代理的建模.10 1.3.3 深度学习算法.10 2.合成数据与国际安全合成数据与国际安全.13 2.1 合成数据的附加值.15 2.2 风险.17 结论结论.20 参考
4、文献参考文献.20 探索人工智能和自主系统的合成数据入门指南 2 关于安全与技术方案关于安全与技术方案 当代科学技术的发展为国际安全与裁军带来了新的机遇和挑战。裁研所的安全与技术方案(SecTec)力求建立对特定技术创新的国际安全影响和风险的了解和认识。该计划召集利益攸关方探讨各种想法,并就如何应对这些想法形成新思维。关于作者关于作者 Harry Deng 是裁研所安全与技术方案的顾问,他的工作重点是新兴技术对国际安全的影响。他持有滑铁卢大学全球治理硕士学位,目前是该校的博士生。请在推特上关注 Harry hwrdeng。探索人工智能和自主系统的合成数据入门指南 3 缩缩写与缩写与缩略语略语
5、AI 人工智能 GAN 生成式对抗网络 GGE 政府专家组 ICT 信息和通信技术 IoT 物联网 OEWG 不限成员名额工作组 VAE 变分自动编码器 探索人工智能和自主系统的合成数据入门指南 4 内容提要内容提要 近年来,人工智能(AI)和机器学习领域的进步为增强人类能力和改善各种自主系统的功能,包括在国际安全领域,带来了前所未有的机会。然而,在防卫领域,用于训练日益复杂的人工智能系统的高质量、高度多样化和相关真实世界的数据集却十分稀缺。因此,合成数据正逐渐成为开发和训练人工智能系统的数据工具箱中必不可少的工具。合成数据的特点和潜在优势,以及该技术在各个领域的成熟应用,使其成为围绕在国际安
6、全背景下使用人工智能展开辩论的一个重要话题。本文简要概述了合成数据,包括其特征、生成方式、附加值、风险以及其在防卫组织和军事行动中的潜在用例。此外,本文还概述了现有数据面临的挑战和限制,这些挑战和限制促使合成数据成为开发日益复杂的人工智能系统的重要工具。迄今为止,合成数据在国际安全领域的使用大多停留在实验和探索阶段。然而,合成数据的特点可能会对人工智能系统的训练产生有利影响。特别是,合成数据可以生成高度多样化甚至新颖的数据集,对数据属性进行精细控制,在必要时自动注释或标注数据,并具有成本效益。本文探讨了合成数据的主要特点如何使军方和防卫组织受益,使其能够在防御和进攻型自主系统中集成更强大、更可