当前位置:首页 > 报告详情

利用共封装铜_光插座解决人工智能规模化应用的运营障碍.pdf

上传人: 明**** 编号:1011740 2025-12-21 21页 1.55MB

1、Peter WinzerResolving Operational Barriers to AI Scale-Up with Co-Packaged Copper/Optics SocketsResolving Operational Barriers to AI Scale-Up with Co-Packaged Copper/Optics SocketsPeter WinzerHow Much I/O Does AI Need?Operational intensity Flops/Byte0.11101001000System Performance Flops/s100 G1 T10

2、T100 T1 P10 P100 P100 EXPUs could use orders of magnitude more I/O BWVery hungrySimple calculationsNot so hungryComplex calculationsHow data-hungry is your algorithmSources:1 S.Williams,A.Waterman,and D.Patterson“Roofline:An Insightful Visual Performance Model for Floating-Point Programs and Multico

3、re Architectures,”Communications of the ACM,52(4),65-76(2009).2 N.P.Jouppi et al.,“In-Datacenter Performance Analysis of a Tensor Processing Unit TM,”Proc.44th annual int.symp.on computer architecture,1-12(2017).3 H.Ltaief et al.,“Scaling the“Memory Wall”for Multi-Dimensional Seismic Processing with

4、 Algebraic Compression on Cerebras CS-2 Systems,”ACM/IEEE Int.Conf.High Performance Computing,Networking,Storage,and Analysis(SC23)(2023).4 Nvidia NVL72;online:https:/ limitedHow Much I/O Does AI Need?FugakuCondor GalaxyGoogle TPUv1Nvidia K80 GPUIntel Haswell CPUOperational intensity Flops/Byte0.111

5、01001000System Performance Flops/s100 G1 T10 T100 T1 P10 P100 P100 EXPUs could use orders of magnitude more I/O BWVery hungrySimple calculationsNot so hungryComplex calculationsHow data-hungry is your algorithmSources:1 S.Williams,A.Waterman,and D.Patterson“Roofline:An Insightful Visual Performance

6、Model for Floating-Point Programs and Multicore Architectures,”Communications of the ACM,52(4),65-76(2009).2 N.P.Jouppi et al.,“In-Datacenter Performance Analysis of a Tensor Processing Unit TM,”Proc.44th annual int.symp.on computer architecture,1-12(2017).3 H.Ltaief et al.,“Scaling the“Memory Wall”

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
根据报告的内容,全文主要探讨了AI规模化的挑战和解决方案,特别是通过使用铜/光学混合封装的插座来克服操作障碍。以下是关键点: 1. **AI的I/O需求**:AI算法对I/O带宽的需求极高,尤其是在复杂计算中。 2. **AI集群规模扩展**:AI集群规模扩展面临 radix-limited 或 reach-limited 的限制,需要大量xPUs和高速交换。 3. **高速SerDes的重要性**:SerDes技术在未来5-10年内不会放缓,是数据中心的关键。 4. **混合媒体支持**:使用铜和光学的混合媒体可以节省电力,避免使用重定时器DSP。 5. **2D光学阵列**:2D光学阵列可以实现可扩展的高密度I/O,避免使用重定时器DSP。 6. **光学接口**:AI需要低功耗、高密度、全扇出和操作性的光学接口。 7. **Co-Packed Copper & Optics**:使用共封装铜和光学插座,支持高速SerDes接口和混合媒体客户端接口,实现低功耗、无重定时器DSP的CPX插座。 8. **2D光学引擎**:使用SiGe技术的224G每通道,高级均衡和光子集成电路,实现高密度和低功耗。 9. **Call to Action**:建立多厂商的CPX生态系统,支持高速SerDes接口和混合媒体客户端接口,实现全扇出和低功耗的CPX插座。
"AI集群升级,铜光混合之路?" "如何降低AI集群功耗?" "铜光混合,AI未来I/O密度的关键?"
客服
商务合作
小程序
服务号
折叠