1、演讲人:王豪杰演讲单位:中国移动研究院目目 录录01场景与安全需场景与安全需求求02现有技术分析现有技术分析03PHYSecPHYSec技术思技术思路路04总结与展望总结与展望场景与安全需求场景与安全需求01Chapter one网络攻击日渐频繁,无处不在!在Internet上每天有超过1亿次的网络攻击,每秒超1000次以上的攻击发生。攻击者企图访问用户个人或组织的信息数据,没有一家公司能幸免中国数据安全法中国网络安全法中国个人信息保护法 中国密码法网络安全审查办法关键信息基础设施保护条例网络安全等级保护条例(征求意见)网络安全审查办法(修订)商用密码管理条例(修订征求意见)网络产品安全漏洞管
2、理规定网络数据安全管理条例(征求意见)201620182019202020212022德国电信安全法2.0德国安全要求目录欧盟网络安全法GDPR工业和信息化部关于工业大数据发展的指导意见工业和信息化领域数据安全管理办法(试行)(征见)英国电信安全业务守则草案PCI-DSS v4.0全球100多个国家已对数据安全提出要求;中国、英国、德国、欧盟相继颁布网络安全法案,要求通信网络确保数据传输安全用户入算上载样本数据、算内及算间训练生成模型及参数、下载训练后的模型及参数,涉及敏感数据的频繁交互,存在泄露、窃听的风险智算中心A远端用户入算网络数据上传:端到端安全加密,确保样本数据安全模型下载:端到端安
3、全加密,确保模型框架、参数安全算间网络参数传递:端到端安全加密,确保模型框架、参数安全算内网络数据转移:存储节点直接(对象文件),需确保样本数据安全数据读取:计算节点访问文件存储节点(读),需确保样本数据安全归档写回:计算节点访问文件存储节点(写),需确保模型与参数安全模型复制:存储节点直接(文件对象),需确保模型与参数安全承载网络智算中心B入算网络入算关键诉求:用户访问以及用户数据的安全关键能力:高安全、低开销算内关键诉求:AI模型架构、参数核心资产的存储、使用安全关键能力:低时延、高吞吐、低开销安全,不占用算力,不影响算效算间关键诉求:数据与协议安全,防窃听关键能力:高安全、高吞吐、低开销
4、智算中心内实现网络安全机制的从无到有,入算网络和算间网络实现安全防护能力的由低到高;面向算内、入算和算间的不同诉求,研究合适的安全加密机制用户智算中心BEthernet智算中心AEthernet算间网络上述智算中心网络场景的底层承载网络主流技术是以太网,为了应对上述日益严峻的数据安全挑战,须对以太网提供安全认证、密钥管理以及数据加解密能力,构筑以太网安全机制,为新型智算中心提供安全数据传输能力现有技术分析现有技术分析02Chapter one智算中心采用CLOS组网来满足日益增长的转发规模需求,通用性有明显优势。智算中心的AI典型Leaf-Spine组网,ALL-TO-ALL通讯,100GE/
5、400GE/800GE接口,1K计算节点(3232)训练和推理*:*2023 usenix,Accelerating Distributed MoE Training and Inference with Lina,HKU 模型:Mixture of Experts(MoE)通讯方案:all-to-all800GEspine交换机spine交换机spine交换机spine交换机core交换机core交换机TORTORTORTOR400GE100GERack1323232256168128Rack32优势可以实现计算节点与计算节点,计算节点与存储节点,存储节点与存储节点之间的安全加密管控复杂O?
6、:N台Server 全网需维护?安全连接(SA会话)每连接1对密钥,全网管理维护2?个密钥静态时延增加超30%:以4 Hops为例,server-to-server典型静态链路时延?.?考虑TLS/RDMASec/IPSec加解密时延最优性能1s,静态时延增加=?/?.?%劣势带宽开销增加至少21字节:TLS逐包增加21B开销,RDMASec逐包增加40B开销,IPSec逐包增加48B开销须升级硬件支持:在AI计算场景下,将TLS/IPSec/PSP安全加密功能卸载到硬件,需要Server硬件支持*RFC5042提出RDMASec基于IPSec改进,Google在2022年发布基于IPSec