当前位置:首页 > 报告详情

主题演讲 - 使用 P4 网卡实现弹性横向扩展 GPU 互连.pdf

上传人: 明**** 编号:1011700 2025-12-21 10页 682.38KB

1、Using P4 NICs for resilient scale-outGPU InterconnectParameters(Log Scale)2014201620182020202220232025AmoebaNetB557 millionResNet5026 millionBERT-large330 millionChatGPT-41.8 trillionGPT-3175 billionPaLM540 billionGPT-21.5 billion2x per yearImage and speech recognition models14x per yearLanguage+rec

2、ommender models2024Llama 4 Behemoth 2 trillion48,000 100,000 1,000,000 20 x GPU Cluster ScaleInfinibandEthernet(RoCEv2)Ethernet(UEC)The need for Scale-out AI fabricTraits of Scale-out GPU Interconnect-UECNIC:Packet Spray+Out-of-Order handlingSwitch:ECMP NICsNICsMultipathingUtilizing full bisectional

3、 bandwidthCongestion ControlHandle lossy networksLoss identificationSelective acknowledgement and retransmissionTCOMaximize compute by eliminating inefficiencies Network Switch Fabric(Non-Blocking)GPUNICGPUNICGPUNICGPUNICLink down,Link errors(optics/cable)LinkSwitch hardware failure,Switch software

4、failureSwitchNIC hardware failure,NIC software failureNICGPU hardware failure,GPU software failureGPULink down,Link errors(optics/cable)LinkThe challenge of AI fabric scale100K AI Cluster Key ComponentsComponentsQuantityCommentsGPU100KTypical GPUBack End NIC100K1:1(GPU:NIC)GPU Servers13K8 GPUs/serve

5、rNetwork Switches1.2K512x100GbE portsOptical Cables600K+2-tier designTransceivers600K+QSFPRacks1.6K64 GPUs/rack*About 78%of unexpected interruptions were attributed to confirmed or suspected hardware issues.*https:/arxiv.org/pdf/2407.21783(The Llama 3 Herd of Models)Infrastructure resiliency is not

6、optionalGPUNICGPUNICGPUNICGPUNICNetwork Switch Fabric(Non-Blocking)Switch hardware failure,Switch software failureSwitchNIC hardware failure,NIC software failureNICGPU hardware failure,GPU software failureGPUFailure ScenarioTypeWhy P4 Modular System ArchitectureAny Ethernet Network SwitchSoftware De

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
根据报告的内容,全文主要探讨了使用P4网络接口卡(NICs)在可扩展GPU互连中的重要性,以及其在构建高容错性AI集群中的应用。以下是关键点: 1. **AI模型增长**:AI模型规模每年增长显著,例如ChatGPT-4有1.8万亿参数,GPT-3有1750亿参数。 2. **GPU集群规模**:20倍扩展的GPU集群需要高效的网络互连。 3. **网络互连特性**:需要支持多路径、全带宽利用、拥塞控制和错误处理。 4. **P4 NIC优势**:P4 NIC提供可编程性,支持多路径、多平面和源路由,提高网络效率和容错性。 5. **硬件故障**:约78%的意外中断归因于硬件问题。 6. **P4应用**:AMD Pensando Pollara 400 AI NIC展示了P4在处理大规模网络挑战中的优势。
AI集群的坚强后盾?" AI网络互联的未来?" 如何应对AI集群挑战?"
客服
商务合作
小程序
服务号
折叠