1、2024 CCNIS SUMMIT 算网融合产业发展大会开放、创新、融合、共赢确定性网络技术与算力网络的应用思考汇报人:张桂玉日期:2024年7月10日01算力网络的发展情况2024 CCNIS SUMMIT 算网融合产业发展大会开放、创新、融合、共赢1.1“东数西算”战略促进算力网络成为业界发展热点政策驱动:明确顶层建设目标一、完善算力综合供给体系二、提升算力高效运载能力三、强化存力高效灵活保障四、深化算力赋能行业应用 五、促进绿色低碳算力发展六、加强安全保障能力建设运营商战略:算力网络建设是重要战略发展方向升级云网融合3.0战略,加速智算领域布局,加强算网相关平台研发算网“三个突破/三个转
2、变/三个融合”,包括算网基础设施构建、业务融合创新、创新技术引领推进架构先进、安全可靠、服务卓越的算力网络新布局,为数字经济打造“第一算力引擎”算力基础设施高质量发展行动计划一、统筹通用算力、智能算力、超级算力的一体化布局二、统筹东中西部算力的一体化协同三、统筹算力与数据、算法的一体化应用四、统筹推动算力与绿色电力的一体化融合五、统筹算力发展与安全保障的一体化推进六、加强统筹、政策、技术等保障措施深入实施“东数西算”工程 加快构建全国一体化算力网的实施意见2024 CCNIS SUMMIT 算网融合产业发展大会开放、创新、融合、共赢1.2 智算快速发展,对算力网络提出新的确定性要求AI算力时代
3、发展加速OpenAI发布ChatGPT,5天用户量突破100万,2023年2月达到月活1亿小模型大模型专用领域,感知理解通用领域,生成创造智能算力规模飞速增长,预计2024-2027年中国智能算力规模年复合增长率可达到33.9%,远超同期通用算力规模增长率智算业务形态变化亟需网络演进升级,提供确定性保障能力模型训练数据 模型大小盘古40TB500GBGPT345TB700GBGPT42000TB7200GB模型规模增长催生海量训练数据上传,需要网络具备确定性带宽保障能力多算力资源协同训练,为保证训练效率,需要网络具备确定性时延与丢包率保障能力AI训练的大规模组网协同,需要网络具备确定性的健壮性
4、与可靠性保障能力确定性带宽确定性质量确定性可靠少量数据单数据中心训练海量数据,高效协同需考虑万卡以上规模02确定性网络技术的发展情况2024 CCNIS SUMMIT 算网融合产业发展大会开放、创新、融合、共赢2.1 确定性网络概念及技术特征定义:确定性网络是指利用网络资源提供具有带宽确定性、时延确定性、抖动确定性和高可靠的业务体验的 IP 网络。2023年CCSA最新标准n 时延确定性 保证确定性的时延(时延的上界)和确定性的时延抖动(时延的上界和下界)。n 带宽确定性 轻载和拥塞场景下均能提供承诺的带宽,包括承诺保证带宽(CIR)和允许突发带宽(PIR)。确定性无损n 高可用性:具备大于
5、99.999%及以上的高可用性,具备丢包确定性,低丢包率或长期无丢包特性(无损)。n 低时延:降低消息传输中的处理延迟,增强数据传输的时效性,保证业务的低时延特性。关键指标:发展:不同时期发展关注点也在不断变化,IEEE与IETF在2015年相继定义了局域“时间敏感网络”与广域“确定性网络”,之后超低时延无损传输也成为确定性网络的一个重要内容。目前关注的是确定性和无损两类。2024 CCNIS SUMMIT 算网融合产业发展大会开放、创新、融合、共赢2.2 确定性网络技术发展情况n应用场景:园区工业PLC、车载网络、智能变电站、移动前传等局域时延敏感场景;数据中心海量数据搬运及快速同步;n关键
6、技术:TSN(时延敏感网络),保证二层网络数据包到达时间、顺序的可控、稳定;局域无损通过IB、RoCE和RoCEv2协议提升系统吞吐,降低通信时延。n业界情况:国内外市场提供TSN软硬件产品及服务、IB/RoCE交换机相对成熟。n运营商情况:政企关注并拓展园区/智算中心市场。n标准组织:2000-2010年IBTA先后标准化IB、RoCE协议;2015年IEEE定义TSN,2018-2022年国际国内标准先后确定,标准成熟。局域标准成熟,园区/数据中心成熟商用n应用场景:能源、医疗、工业等多行业均在探索确定性应用,如电力差动保护、远程手术等;AI大模型对智算广域海量数据无损传输提出要求。n关键