当前位置:首页 > 报告详情

面向人工智能规模化计算的互连技术性能评估:UAL vs UALoE_SUE vs RoCE.pdf

上传人: 明**** 编号:1012046 2025-12-21 19页 2.54MB

1、Srihari Vegesna,VP Architecture&TechnologySrinivas Gangam,Fellow ArchitectureUpscale AIPerformance Evaluation of Interconnect Technologies for AI Scale-Up Computing:UAL vs UALoE/SUE vs RoCEPerformance Evaluation of Interconnect Technologies for AI Scale-Up Computing:UAL vs UALoE/SUE vs RoCESrihari V

2、egesnaSrinivas GangamUpscale AI OCP SPECIAL FOCUS:ARTIFICIAL INTELLIGENCE(AI)Scale Up Domain Interconnect TransportMemory Semantics for AI Scale UpXPU UALoE/SUE FrameworkXPU Kernel ThreadTLBNOC PortPackingQueueing&SchedulingHeader EncapsulationLink Layer RetryEthernet Link&PHYNOC PortNOC PortUn Pack

3、ingParsingLink Layer RetryEthernet Link&PHYNOC PortOptimized Ethernet header for performanceEnd-to-end reliability need to be achieved outside if no link layer retry.FEC alone not sufficientQueue per(XPU,TC)Workload gets load balanced across multiple Ethernet NOC portsCompute Tile(CT)&MemoryNetwork

4、On Chip(NOC)Networking Tile(NT)MemoryXPU/Host MemoryScaleUp Ethernet SwitchXPU UAL FrameworkXPU Kernel ThreadTLBNOC PortTransaction LayerLink Layer RetryEthernet Link&PHYNOC PortNOC PortLink Layer RetryEthernet Link&PHYNOC PortWorkload gets load balanced across multiple Ethernet NOC portsCompute Til

5、e(CT)&MemoryNetwork On Chip(NOC)Networking Tile(NT)MemoryXPU/Host MemoryTransaction LayerPotentially need to add a light weight Shim to convert the memory semantic interface to UPLI interfaceNo packing,Queueing and Scheduling logicSignificant area,power and latency saving No un-packing logicArea&pow

6、er saving ScaleUp UALSwitchSimplified RoCE for XPU workloadRoCE Semantic based Data TransferXPU RoCE FrameworkXPU Kernel ThreadBlock Load balanceNOC PortDMA Command Rd&ReorderQueueing&SchedulingHeader EncapsulationLink Layer RetryEthernet Link&PHYNOC PortNOC PortDMA Wr ParsingLink Layer RetryEtherne

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
全文主要探讨了AI规模扩展计算中不同互连技术的性能评估,包括UAL、UALoE/SUE和RoCE。关键点如下: 1. **互连技术比较**:比较了三种互连技术在AI规模扩展计算中的应用性能。 2. **性能指标**:包括延迟、带宽效率、总带宽利用率等。 3. **负载均衡**:讨论了事务级和块级负载均衡,以及推模型和拉模型DMA线程的初始化。 4. **数据传输**:分析了发送方网络板的直接事务传输、事务聚合和打包,以及接收方的完成和确认。 5. **错误恢复**:讨论了链路层重试和前向纠错(FEC)在保证端到端可靠性的作用。 6. **功能比较**:比较了三种技术在负载、存储事务、负载均衡效率、DMA线程位置、NOC延迟、打包、链路层重试和信用流控制等方面的差异。
互联技术哪家强?" "XPU互联技术大比拼,谁才是性能王?" "AI时代,网络互联技术哪家领先?"
客服
商务合作
小程序
服务号
折叠