1、前 言I从5G商用化进程的加速到万物智联时代的开启,及物联网、工业互联网、自动驾驶、远程医疗等新兴技术的蓬勃发展,人类对网络的需求不再局限于基础连接,而是向极致可靠性、全域覆盖与智能自治能力迈进。当前 5G 网络虽在时延和带宽性能上实现显著突破,但商用部署中仍暴露出多重短板与潜在风险,部分关键场景存在业务中断隐患。6G 作为下一代移动通信技术,对网络稳定性与可靠性提出了更高要求。本白皮书聚焦核心网领域,汇聚行业专家的研究成果与实践经验,深度剖析4/5G 商用网络事故带来的启示、前瞻性预判 6G 网络面临的可靠性挑战,提出6G“零中断”网络(Zero-Outage Network,ZON)愿景和
2、目标、设计“零中断”网络三体架构,即网络本体原生抗毁、灾备护体物理止损、高稳智能体智能提效,并论述6G可靠性设计的关键要素。致力于为人类社会提供永续在线、无缝切换、自主愈合的通信服务,为业界同行提供参考,共同推动 6G 技术发展,助力实现万物智联的美好未来。I11.4/5G网络商用事故启示及6G可靠性挑战21.1 4/5G 商用事故统计分析随着 4G 和 5G 技术在全球范围内的商用推广,通信网络的规模和复杂性急剧增长。近年来,全球通信网络中的重大故障事件也屡屡发生,给运营商和用户带来了严重的影响。根据互联网公开数据和行业报告不完全统计,在 2021 年至 2024年期间,全球通信行业发生了超
3、过 66 起重大网络事故,影响范围广、恢复时间长、经济损失严重。如何提高网络设备的容错性、提升整网抗信令风暴的鲁棒性以及故障自愈的高效性是 6G 网络必须优先考虑和解决的问题。图 12021年至2024年4/5G商用事故统计事故诱因复杂,以网络故障和动网操作为主。4G/5G网络的故障呈现出软硬结合、内外因交织的复合性特点。其中,网络故障占比约50%,通常由网络自身设计缺陷或容灾不足引起网络中断,包括硬件故障、网络云故障、核心网故障、传输承载故障等。其次,动网操作占比约38%,通常由人为的网络维护操作、或升级调试等行为引发网络功能异常、甚至信令风暴和大面积服务中断。过载是主要现象。占比约69%,
4、通常因局域异常未能及时恢复或隔离,再加上4/5G智能终端永远在线的设计,导致短时间内反复重试引发过载。语音和数据业务会同时受影响。占比约88%,因语音和数据业务强耦合设计,一方面语音业务都是基于IMS承载的,当数据业务发生故障,语音业务也将遭受牵连;另一方面因为终端的语音优先策略,当语音业务故障时会释放数据连接。事故诱因事故现象业务影响中断时长3业务中断时间长。88%的事故中断时长超过2个小时,50%的事故中断时长超过5个小时,主要因为发现异常耗时长、人工定界、诊断、恢复耗时长。1.2 4/5G 商用事故启示1.2.1技术演进启示5G网络在商用与能力演进过程中暴露出的问题和影响,要求在6G设计
5、之初充分考虑并规避。降低网络复杂度,减少故障风险和定位时长:5G网元和接口数量增加,长链路交互增加了故障诊断/定位的耗时和难度,当网络信令风暴发生后需要E2E协同控制才能有效恢复。降低资源池故障的跨层传导,做好亚健康监控和容错设计:5G网络在虚拟化改造后,采用资源池、通用硬件替代传统的通信专用硬件,亚健康故障检测和定位定界难度增加,三层兼容性问题增加,对网络可靠性带来挑战。需通过通用硬件层的高可用设计、基础软件层的稳定运行及业务软件层的容错机制协同保障,实现系统级可靠性,确保服务持续稳定。加固枢纽节点应灾能力,减少服务化信令冲击:NRF、SCP作为5G服务化、信令转发的中枢节点,一旦故障影响较
6、大。随着网络规模的扩大以及用户量的扩增,服务化接口信令冲击、大包传输、链路层资源不足的风险相应增加。加强边缘网隔离性,减少和公网相互影响:边缘网络与公网可能存在控制面交互、数据同步,一旦发生链路异常或传输异常,影响边缘业务的4正常运行,同时,边缘网络访问公网也存在安全攻击风险和故障传导风险。提升网络敏捷拓展能力,保持基础网络的稳定性:随着3GPP标准的不断更新,许多新业务拓展常需多个基础网元升级,业务发展不敏捷,也波及已商用业务的在线体验和基础网络的稳定运行。1.2.2容灾管理启示容灾组网的完善程度直接决定了网络在面对灾难或突发故障时的恢复能力。当前许多网络在面临大规模故障时,无法保证服务的连