1、- 1 -2022 年年 5 月月 5 日第日第14期总第期总第 533 期期小数据人工智能的巨大潜力小数据人工智能的巨大潜力【译者按】【译者按】2021 年 9 月,美国安全与新兴技术研究中心(CSET)发布小数据人工智能的巨大潜力报告。报告认为,人工智能不完全依赖大数据, “小数据”方法可以针对标记数据不足的情况提供替代性解决方案,拥有巨大人工智能潜力。报告介绍了迁移学习、数据标记、人工数据生成、贝叶斯方法以及强化学习五类小数据方法,分析了各类方法在人工智能应用方面的优势,并通过对论文研究集群的统计分析探究了小数据方法研究进展、领先国家相关领域竞争力分析及研究资金投入情况。赛迪智库信息化与
2、软件产业研究所对报告进行了编译,期望对我国有关部门有所帮助。【关键词】人工智能小数据【关键词】人工智能小数据- 2 -传统观点认为, 尖端人工智能依赖于大量数据, 一个国家 (或企业)能够获取的数据量是其人工智能进展的关键指标。当前很多人工智能系统确实使用了大量数据,然而,并非所有人工智能系统都需要海量数据作为支撑,小数据也拥有巨大人工智能潜力。为此,本文介绍并概述了“小数据”人工智能方法,该方法有助于解决标记数据不足的问题,进而挖掘数据潜能,并鼓励政府部门、 行业企业突破大数据基础设施局限, 实现人工智能创新。一、“小数据”方法的分类一、“小数据”方法的分类本研究将“小数据”方法分为了五大类
3、:迁移学习、数据标记、人工数据生成、贝叶斯方法以及强化学习。在没有大型预标记数据集的情况下,可以利用这些方法训练人工智能系统。迁移学习(迁移学习(Transfer learning)是一种机器学习方法,可以在数据丰富的环境中学习执行任务,而后将所学知识“迁移”到可用数据少的任务中。这一方法对于解决关联问题标记数据丰富但所研究问题数据不足的情况有很大价值。例如,某人在开发用于识别稀有鸟类品种的应用程序时,可能只有少量鸟类照片。利用迁移学习,可以首先使用更大、更通用的图像数据库训练基本图像分类器,一旦该分类器能够区分狗与猫、花与水果、麻雀与燕子,研究人员就可以为该分类器提供- 3 -更小的稀有鸟类
4、数据集。然后,该模型可以“迁移”其已知的图像分类知识,利用这些知识从更少的数据中学习识别稀有鸟类。数据标记(数据标记(Data labeling)方法,即从有限的标记数据和大量无标记数据开始,使用一系列方法来理解可用的未标记数据。例如自动生成标记(自动标记)或识别标记重要数据点(主动学习) 。例如,主动学习可被用于皮肤癌诊断的相关研究。研究人员基于已进行皮肤癌或健康皮肤标记的 100 张照片,进行图像分类模型的最初训练。然后,为模型提供更大的潜在训练图像集,从中选择另外 100 张照片进行标记并添加到训练数据中。同时,为了尽可能多地从可用数据中学习,该模型可以基于照片信息含量进行附加照片选择,
5、自行选择信息更丰富的照片进行标记。人工数据生成(人工数据生成(Artificial data generation)方法,旨在通过创建新数据点或其他相关技术,最大限度地从少量数据中提取更多信息。该方法可以通过对现有数据的小幅更改(如图像分类数据集中裁剪或旋转图像)或其他更复杂的方法,推断可用数据的基础结构并从中进行推测。例如,计算机视觉研究人员利用计算机辅助设计(CAD)软件生成常见物体的逼真 3D 图像,并使用这些图像扩充现有的图像数据集。这种方法在处理有关重点数据的单独信息源时,相比- 4 -其他方法更为切实可行。同时,这种生成更多数据的能力不仅仅可用于处理小数据集。如果单个数据的细节为敏
6、感信息(例如,个人的健康记录) ,但研究人员对数据的整体分布很感兴趣,则可以使用合成数据对数据进行随机更改,以掩盖私人信息。贝叶斯方法(贝叶斯方法(Bayesian methods)是机器学习和统计学的一种大类方法,有两个共同特点。首先,该方法明确地将问题先验信息纳入其解决问题的方法中,而其他方法则更倾向于对研究问题做出最少的假设。贝叶斯方法会在数据进一步改进之前合并这些“先验”信息,因此更适合某些数据较为缺乏,但可以采取实用数学形式写出问题相关信息的环境。其次,贝叶斯方法侧重于对其预测的不确定性进行良好校准后的估计。该方法可以更容易地识别数据点,从而极大减少不确定性,在可用数据有限的情况下能