当前位置:首页 > 报告详情

AMD公司发表了题为“利用开放系统构建未来人工智能数据中心”的演讲.pdf

上传人: 明**** 编号:1011540 2025-12-21 19页 1.99MB

1、BUILDING THE FUTURE OF AI DATA CENTERS WITH OPEN SYSTEMSOctober 2025Krishna Doddapaneni,Corporate Vice President of Engineering,Networking Technology and Solutions Group,AMD2|PublicAI is Driving Massive Compute DemandParameters(Log Scale)2014201620182020202220232025AmoebaNetB557 millionResNet5026 mi

2、llionBERT-large330 millionChatGPT-41.8 trillionGPT-3175 billionPaLM540 billionGPT-21.5 billion2x per yearImage and speech recognition models14xper yearLanguage+recommender models2024Llama 4 Behemoth 2 trillionHigh Performance AI NetworkingSolving the Most Critical Challenges for Scaling AI and HPCHi

3、gh Performance AI NetworkingSolving the Most Critical Challenges for Scaling AI and HPCOpen ProgrammablePerformant4|Advancing AI 2025Coming in 2026AMD“Helios”Rack-Scale ArchitecturePowering AI of the FutureSCALE-UPSCALE-OUT&ACROSSAI INFRASTRUCTURE SOFTWARE5|Advancing AI 2025Network Challenges for AI

4、 WorkloadsAt an average 30%of training cycle timeis elapsed in waiting for networkingCommunication accounts for 40%-75%of timewith Training and Distributed Inference Models2%of time spent in networking40%75%AI Model 1AI Model 235%57%18%38%AI Model 1AI Model 2AI Model 3AI Model 435%57%18%38%40%75%Sou

5、rces:1)2022 OCP Keynote by Alexis Bjorlin,VP at Meta,2)Computation vs.Communication Scaling for Future Transformers on Future Hardware,https:/arxiv.org/pdf/2302.02825.%of time spent in networking40%75%AI Model 1AI Model 235%57%18%38%AI Model 1AI Model 2AI Model 3AI Model 435%57%18%38%40%75%6|Open In

6、teroperable Solutions for AMD Instinct AI NetworkingPollara 400 AI NIC Product OptionsRoCEv2,UEC-Ready RDMA&Custom TransportLeadership Performance;P4 ProgrammableTrusted by Industry-leading OEM/ODM PartnersAMD InstinctMI3XX GPUPollara400-1Q400P(PCIe Gen5)Pollara400-1Q400P-OCP(OCP 3.0)7|AMD Pensando

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
根据文章内容,以下是全文关键点的概括: 1. **AI计算需求激增**:从2014年到2025年,AI模型参数量每年增长2倍,到2025年预计达到2万亿。 2. **网络挑战**:AI工作负载中,平均30%的训练周期时间用于等待网络,通信占40%-75%的时间。 3. **高性能AI网络解决方案**:AMD的“Helios”架构和Pensando™ Pollara 400 AI NIC旨在解决这些挑战,提供高性能和可扩展的网络解决方案。 4. **Pollara 400 AI NIC特性**:包括多平面设计、P4可编程、降低网络成本等,性能领先于竞争产品。 5. **软件定义网络与加速**:提供软件定义网络功能、存储路径加速和加密安全功能。 6. **开放生态系统**:支持跨平台互操作性,加速作业完成时间,提高集群可用性和GPU利用率。 7. **Scale-up和Scale-out**:同时支持数据中心内外的扩展,解决带宽限制和可用性问题。 8. **网络驱动的大规模AI**:通过提高性能、可靠性和模型收敛速度,推动大规模AI发展。
如何突破瓶颈?" 如何实现高效扩展?" AI网络性能革新!"
客服
商务合作
小程序
服务号
折叠