1、TEETEE 技术在隐私计算和大模型训练技术在隐私计算和大模型训练场景下的场景下的探索探索和展望和展望中国移动研究院 业务研究所2024 年 12 月中移智库摘要摘要本文介绍了可信执行环境 TEE(Trusted ExecutionEnvironment)技术的基本特点以及 TEE 技术在传统机密计算领域的应用和发展进程,以及 TEE 在最新预训练大模型领域应用的技术难点和解决方案,在此基础上,本文还展望了 TEE技术在机密计算领域的前景和面临的主要问题。一、一、引言引言在人工智能领域,数据是至关重要的资源。无论是训练模型还是优化算法,都离不开大量的数据支持。然而,这些数据往往包含了大量的敏感
2、信息,如用户的个人信息商业机密等。一旦这些数据被泄露或滥用,将会给个人和企业带来巨大的损失。因此,保障数据的安全性对于维护社会稳定和促进经济发展具有重要意义。1中移智库为保证数据的安全,在人工智能领域涌现出了许多数据隐私保护的算法和技术,每种技术都有其独特的适用领域和优势。以下是对其中使用最广泛的几种主流技术和主要适用领域的描述:1、联邦学习:联邦学习是一种分布式机器学习框架,它允许多个参与者在不直接共享本地数据的情况下共同训练一个全局模型。这种方法特别适用于需要保护用户隐私的场景,如金融、医疗和电子商务等领域。联邦学习通过加密中间结果或使用加法同态加密技术来保护数据隐私,同时允许在保持数据隐
3、私的前提下进行模型训练和更新。2、安全多方计算:安全多方计算(SMC)是一种允许多个参与者在不泄露各自输入的情况下共同计算一个函数的技术。这种技术在需要保护商业秘密或敏感信息的场景中非常有用,如供应链管理、智能合约等。SMC通过确保每个参与者只能获取最终结果而无法得知其他参与者的具体输入,从而保护了各方的利益。3、可信执行环境TEE:TEE 是通过创建一个隔离的执行环境,将敏感数据的处理过程与外部环境隔离开来,确保数据在传输和处理过程中不会被窃取或篡改的一种技术。TEE 还具备硬件信任根(Root of Trust)和链式信任机制,2中移智库确保从启动到运行的每个阶段都能被验证,并通过提供每个
4、阶段度量值的签名让第三方用户远程验证其运行环境的完整性。相比联邦学习和安全多方计算,可信执行环境TEE 的计算效率更高,而且可以适用于所有隐私计算的业务场景,在一些数据集中存储或者数据可出域进行集中计算的场景可以更好的发挥其性能优势,因此逐步成为隐私计算方向一项非常重要的技术。二、二、TEETEE技术在技术在隐私隐私计算领域的应用和发展计算领域的应用和发展TEE 的概念最早可以追溯到 20 世纪 90 年代,当时研究人员开始探索如何在不可信的环境中创建安全的执行环境当时的解决方案主要依赖于硬件辅助的虚拟化技术,如Intel的VT-X和AMD 的SVM 技术,这些技术为虚拟机提供了隔离的执行环境
5、。随着 TEE技术的发展,业界认识到了制定统一标准的重要性。全球平台组织(GP)成立并推出了 TEE的行业标准,包括全球平台可信模块(TPM)和全球平台可信计算环境(TPME)。这些标准为 TEE 的设计、实施和评估提供了统一的框架,促进了不同厂商之间的互操作性。随着标准的制定和相关安全芯片的设计,机密计算技术在PC、智能手机等平台上得到了广泛的商业部署使用。3中移智库2015 年开始,随着云计算和移动平台的发展,对于平台的安全性带来了更大的挑战,Intel 于 2013 年推出了 SGX技术,旨在通过硬件强制的方式提供一个更加安全的执行环境增强其安全性。AMD 也于 2016 年推出了 SE
6、V(SecureEncrypted Virtualization)技术,即安全加密虚拟化技术,这项技术使得虚拟机的内存内容即使在物理服务器上也能保持加密状态,从而防止潜在的恶意管理程序或其他未授权访问者读取或篡改虚拟机的数据。2019 年,Linux 基 金 会 成 立 了 机 密 计 算 联 盟(Confidential Computing Consortium),进一步规范TEE 硬件与 TEE 软件(如统一 SDK 和 API 接口),并推进机密计算技术和标准的快速落地,INTEL 和 AMD 亦先后推出TDX,SEV-SNP等升级技术。从上可见,TEE 技术在过去的几十年不断地发展更新