1、- 1 -2022 年年 6 月月 13 日日第第 23 期期总总第第 542 期期建建立立标标准准,发发现现和和管管控控人人工工智智能能存存在在的的偏偏差差【译译者者按按】 2022 年 3 月, 美国国家标准与技术研究所 (NIST) 发布 建立标准,发现和管控人工智能存在的偏差报告。报告认为,人工智能中的偏差问题会对个人、组织和社会产生一系列负面影响,需要采取社会技术的系统方法加以应对。报告介绍了人工智能偏差的概念,分析了由此产生的各类危害与挑战,并建议从数据集、测试评估验证环节、人为因素三个关键维度制定初步的人工智能治理社会技术框架,进而提出了相应的操作指南。赛迪智库信息化与软件产业研
2、究所对报告进行了编译,期望对我国有关部门有所帮助。【关关键键词词】人人工工智智能能偏偏差差 标标准准 治治理理- 2 -随着人工智能(AI)系统更多参与跨行业及关键领域应用,其技术流程中普遍存在的偏差问题可能会造成有害影响,这给社会公平及 AI 系统的公众信任埋下了隐患。然而,当前社会对于人工智能偏差的认知尚不充分,应对人工智能偏差有害影响的尝试仍然集中在计算性因素上,比如数据集的代表性和机器学习算法的公平性。这类补救措施对于减少偏差至关重要,但还远远不够。人为因素、系统性的制度因素以及社会因素也是人工智能偏差的重要来源,但目前却未被重视。要成功应对人工智能偏差的挑战,就需要考虑所有形式的偏差
3、。为此,本文介绍了人工智能偏差的概念及分类,讨论了偏差产生的原因及带来的挑战,并从数据集、测试评估验证环节和人为因素三个方面为制定详尽的社会技术指导路线提供了初步指南。一一、人人工工智智能能偏偏差差:背背景景和和术术语语(一一)人人工工智智能能偏偏差差相相关关概概念念1、人人工工智智能能偏偏差差的的定定义义统统计计性性定定义义:在技术系统中,偏差通常都被理解为一种统计现象。与随机误差不同,偏差是一种通过对统计结果进行系统性扭曲从而破坏其代表性的效应。国际标准化组织(ISO)将偏差更广泛地定义为:“参考值偏离事实的程度”。因此,当 AI 系统表现出系统性的失准行为时,就可被认定存在偏差。这种统计
4、- 3 -性视角并未充分涵盖或揭示 AI 系统中存在偏差所造成的全部风险。法律性定义:法律性定义:对人工智能偏差的讨论不能脱离美国法律体系中针对偏差的处理办法,以及偏差与解决歧视和公平性的法律法规之间的关系。目前,对于不允许的歧视性偏差,法院一般会采取差别对待或差异性影响两种方式进行定义。监管机构与法院尚没有统一的办法来衡量所有不允许的偏差。认知和社会背景:认知和社会背景:人工智能系统设计和开发的团队将他们的认知偏差带入流程,致使偏差普遍存在于各项假设中。若系统性偏差存在于制度层面,则会影响到机构或团队的结构和决策流程的掌控者,带来人工智能生命周期中的个人和群体启发性偏差与认知/感知偏差。同时
5、,终端用户、下游决策者和政策制定者做出的决策也会受到这些偏差的影响。由于影响人类决策的偏差通常是隐性且无意识的,因此无法轻易地通过人为控制或意识纠正进行限制。2、人工智能偏差的类别、人工智能偏差的类别- 4 -图 1:人工智能偏差的类别- 5 -系系统统性性偏偏差差: 系统性偏差也被称为制度性偏差或历史性偏差,源自特定机构的程序或做法,其运作方式致使某些社会群体处于优势地位或受到青睐,而其他社会群体则处于劣势地位或受到贬抑,如制度性种族主义和性别歧视。这些偏差来源于人工智能使用的数据集,乃至贯穿人工智能生命周期,存在于更广泛的社会制度规范和流程中。统统计计性性和和计计算算性性偏偏差差:统计性和
6、计算性偏差源自样本不能代表总体所导致的误差。这些偏差由系统性错误而非随机性错误所导致,而且在没有偏见、偏袒或歧视意图的情况下也可能发生。这些偏差存在于开发人工智能应用所使用的数据集和算法过程中,当算法针对某一类型的数据进行训练且无法进行外延时,偏差就会产生。人人为为偏偏差差:人为偏差反映的是人类思维中的系统性误差,这些误差源于启发性原理数量有限以及基于简单判断进行数据预测。人为偏差往往是隐性的,而且很可能与个人或群体如何感知信息以进行决策或填补缺失或未知信息有关,仅仅提高对偏差的认识并不能确保对它的限制。这类偏差无处不在,贯穿人工智能生命周期中的机构、群体和个人决策过程,乃至人工智能应用部署后