当前位置:首页 > 报告详情

塑造人工智能开放基础设施的未来.pdf

上传人: 明**** 编号:1011815 2025-12-21 18页 4.16MB

1、Ian BuckVP of HPC and HyperscaleNVIDIAShaping the Future of Open Infrastructure for AIGiga-Scale AI is Transforming Data CentersDriving extreme co-design from chip to grid with open collaborationNVIDIA Giga-Scale Reference DesignsPowerCoolingNetworkingComputeMechanicalScale-Up Spectrum-X EthernetOpe

2、n CollaborationCPXPower Smoothing45C Liquid CoolingMGX010,00020,00030,00040,00050,00060,0000100200300400500600GPT-OSS LaunchInferenceMAXTensorRT-LLM+Spec DecodeAug 2025GPT-OSS LaunchTodayCost per Million TokensBlackwell Optimizations Achieve 5X Throughput in 2 MonthsMulti-fold reduction in token cos

3、tsThroughputTPS per GPUInteractivityTPS per UserGPT-OSS-120B$0.11$0.02 5X100030,000 TPS/GPU5x Throughput in 2 monthsH200 NVL8GB200 NVL72Non-GPU CostsGPU CostsProfitExtreme Hardware-Software Co-Design for Inference Performance$5M GB200 NVL72 investment can generate$75M token revenue02,5005,0007,50010

4、,00012,500105090Measured DeepSeek-R1ThroughputTPS per GPUInteractivityTPS per User15xNVL72FP4DynamoTRT-LLMTRT Model OptimizerCUDA GraphsH200GB200AI Factory ROI$75M Revenue$5M$5M CostRevenue estimates assume 3-year operation on 72 GPUs at 50 TPS/User with DeepSeek R1 and$1.45/M token cost,based on In

5、ferenceMAX results and SemiAnalysis TCO model;actual ROI may vary.Inference Complexity is ExplodingMore parameters,experts,reasoning,kernels&shapes,and contextDS-R1,GPT OSS,Kimi K2,Llama4,Qwen3,Cosmos,Gemini,LTM-2-mini,Sora2Mixture of ExpertsDense TransformersDense LLMsInferenceComplexityBERTLlama32

6、024201820232025Massive Context(Video generation,software application development)1Expert10KKernels,Shapes300+Experts10MKernels,Shapes1M+Context Tokens(2,000 x vs.BERT)Next Generation Vera Rubin for Giga-Scale AIOCP MGX compatible infrastructureVera Rubin NVL144Vera Rubin CPXComputeMemoryBandwidthNVL

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
根据报告的内容,全文主要内容概括如下: - **NVIDIA Giga-Scale AI发展**:NVIDIA致力于推动Giga-Scale AI的发展,通过极端的芯片到电网的协同设计,实现开放合作。 - **Giga-Scale Reference Designs**:NVIDIA推出了一系列Giga-Scale参考设计,包括Power Cooling、Networking、Compute和Mechanical等。 - **性能提升**:Blackwell优化在两个月内实现了5倍吞吐量,降低了token成本。 - **AI推理复杂性增加**:随着参数、专家、推理、内核和形状以及上下文的大量增加,AI推理的复杂性正在爆炸式增长。 - **Vera Rubin NVL144**:NVIDIA推出Vera Rubin NVL144,旨在扩展规模,采用OCP MGX贡献以加快上市时间。 - **NVLink融合生态系统**:NVLink生态系统通过新的合作伙伴扩展,支持灵活的OCP MGX机架集成。 - **Spectrum-X Ethernet**:NVIDIA Spectrum-X Ethernet技术支持OCP,为AI超级计算机提供无与伦比的性能。 - **800 VDC基础设施**:NVIDIA与合作伙伴创新,从电网到芯片进行电力传输设计,为Kyber AI工厂提供800 VDC基础设施。 - **OCP会议**:NVIDIA在OCP会议上展示了MGX生态系统、数字孪生、光学互连和更高功率机架冷却的进展。
数据中心变革" "NVIDIA如何实现AI推理性能飞跃?" AI数据中心新引擎?"
客服
商务合作
小程序
服务号
折叠