当前位置:首页 > 报告详情

利用下一代网络加速人工智能发展:SONiC 的创新和可扩展设计.pdf

上传人: 明**** 编号:1011331 2025-12-21 38页 14.85MB

1、Kamran NaqviChief Network Architect-EMEAAccelerating AI with Next-GenNetworking:SONiC Innovationsand Scalable DesignsAccelerating AI with Next-Gen Networking:SONiC Innovations and Scalable DesignsKamran Naqvi BroadcomARTIFICIAL INTELLIGENCE(AI)AI Networking FabricsWhat makes Scale-out networking uni

2、queClos vs Rail-optimized designsSONiC Enhancements for AI NetworkingEthernet for Scale-up Call to ActionsAgendaAI Networking FabricsEnterpriseOOB NetworkFrontend FabricBackend FabricStorage FabricComputeOOB MGMTAI Scale-up and Scale-out NetworkingScale-upScale-outWhat Makes Scale-out Networking Uni

3、queHigh BandwidthElephant flowsSynchronized and bursty trafficRDMA dominant trafficTraining jobs run for long periods of time(hours,days)Tail latency impacts job completion time significantly Synchronized transmission,immediate links saturation Job Completion Time(JCT)derivedfrom the last flow to co

4、mplete“Time Spent in Networking”is Impacted By“Time Spent in Networking”is Improved ByIn case of link failure,recovery should happen in HW,Zero Impact Failover(ZIF)“Time Spent in Networking”is Improved ByReceiver-based credit control can pace senders accuratelyCredit control mechanism can exist on t

5、he switch or the endpointBroadcoms AI Networking SolutionsSwitch ScheduledEndpoint ScheduledBroadcom NICMerchant silicon NICCustomer NICGPU native Ethernet interfaceEndpointcan beEthernet Beats InfiniBand:10+%Imp in JCT130,00120,00110,00100,0090,0016MB32MB64MB128MB256MB512MB1024MBInfiniBand(Gbps)Eth

6、ernet(Gbps)Bus Bandwidth(Gbps)Ethernet Provides 30 x Faster Failover than InfiniBandEthernetInfiniBand*Typical industry failure rate.*Assuming 4K node cluster using 9.2K optic modulesRecovery time(microseconds)Ethernet is the De-facto AI NetworkHyperscalers:Ethernet AI fabric60,000+30,000+30,000+100

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
根据报告的内容,全文主要内容概括如下: - **AI与下一代网络**:Kamran Naqvi介绍了如何通过下一代网络技术SONiC加速人工智能(AI)的发展。 - **Scale-out网络特点**:Scale-out网络具有高带宽、长时训练作业、同步和突发流量等特点。 - **网络性能提升**:通过使用基于接收器的信用控制、零影响故障转移(ZIF)等技术,可以显著提高“网络时间”。 - **Broadcom解决方案**:Broadcom提供了多种AI网络解决方案,包括交换机、客户网络接口卡(NIC)和GPU原生以太网接口。 - **以太网优势**:以太网在JCT(作业完成时间)方面比InfiniBand快10%以上,且具有更快的故障恢复时间。 - **网络拓扑**:介绍了Clos和Rail-optimized设计,以及512 xPU和1024 xPU集群的配置。 - **SONiC增强功能**:包括自适应路由、高级哈希、AI多租户支持等,以优化AI网络性能。 - **AI网络特征**:与传统数据中心网络相比,AI网络需要更好的负载均衡和流量管理。 - **结论**:以太网是AI基础设施的理想选择,企业SONiC是适合AI网络的操作系统。
如何实现高效扩展?" AI时代的网络利器?" "SONiC升级,AI网络加速!
客服
商务合作
小程序
服务号
折叠