《胡欣蔚-超节点时代的开源基础软件-final.pdf》由会员分享,可在线阅读,更多相关《胡欣蔚-超节点时代的开源基础软件-final.pdf(35页珍藏版)》请在三个皮匠报告上搜索。
1、超节点时代的开源基础软件构建实践胡欣蔚目录010203040605什么是超节点超节点基础软件的挑战智算超节点的基础软件通算超节点的基础软件案例分享未来展望数据库:内存不足时数据落盘,导致SQL执行效率大幅下降3702.073041.992969.032920.412867.9600.22 0.25 0.27 0.29 0100020003000400000.10.20.30.41G1.5G2G4G8G内存增加减少落盘,性能提升趋势处理时间性能提升比例提升Work Memory大小,减少数据落盘,复杂SQL执行性能将提升From:开源数据库GreenPlum实测数据分布式存储:高速介质与高性能网
2、络发展,CPU成为瓶颈分布式存储系统4K随机写54.2%25.3%100%NVMeCPURDMA(2*100GbE)CPU瓶颈摩尔定律失效存储系统瓶颈拆解NVMe SSD性能+网络性能提升幅度大于CPU性能提升,目前在存储系统中CPU已成为瓶颈,预计后续发展CPU依然是瓶颈From:分布式存储软件测试数据虚拟化:云厂商资源利用率普遍较低a)资源未分配:平台未出售或保留资源b)资源搁浅:由于服务器中缺少其他资源而无法分配c)资源未充分利用:已分配给虚拟机,但未使用大数据:业务负载动态变化,资源无法精准预测,导致过度分配默认资源分配和实际峰值间存在巨大差距,过度配置会导致资源浪费,降低集群利用率F
3、rom:AutoToken:Predicting Peak Parallelism for Big Data Analytics at MicrosoftFrom:Coach:Exploiting Temporal Patterns for All-Resource Oversubscription in Cloud Platforms通用计算:需要提升资源利用率,优化或卸载IO处理,解决CPU 瓶颈智能计算:需要高带宽、低时延、规模组网、高可靠的互联技术1、高带宽:训练单模型的算力规模持续指数级别增长,由于GPU/NPU内存容量和算力的限制,需要将训练任务切分到多卡上进行并行训练,这就引入了
4、额外的并行通信,卡间通信量随着模型参数量的增加急剧增长。ModelEstimated ComputeGrowthGPT-2(2019)4e21 FLOPGPT-3(2020)3e23 FLOP+2 OOMsGPT-4(2023)8e24 to 4e25 FLOP+1.52 OOMs从 GPT-2 到 GPT-4,训练算力增加了3000-10000倍模型集群大小训练总时长MTBFOPT-175B1K60days19.2 hoursLlama3.1-405B16K54days2.78 hours 4、高可靠:由于AI训练时需要对所有计算单元的计算结果进行规约等操作,单卡故障会影响整个整个训练集群,
5、随着模型参数量的增长,AI集群的规模的扩大,集群可靠性MTBF由天级降低为小时级,减小集群停机时间,提升运行稳定性是AI大模型训推集群普遍存在的挑战。3、规模组网:随着AI大模型的训练任务由百亿稠密走向万亿稀疏,摸高十万、百万亿稀疏,需要的算力从P级增长到10E级,对规模组网的诉求也日益增长。2022202320242025GPT5(预计)10万亿稀疏LLaMA3万亿稀疏文心一言4.0万亿稀疏GPT4/4V1.8万亿稀疏讯飞星火3.0千亿稠密盘古4.0万亿稀疏混元大模型千亿稠密ChatGLM千亿稠密LLaMA2千亿稠密LLaMA千亿稠密BLOOM千亿稠密ChatGPTGPT-3Gemini 1
6、.5100万Token长序列Gemini 1.0多模态大模型Sora文生视频Gemini 2.0(预计)10万亿稀疏+多模态2、低时延:智能语音对话的实时交互、慢“思考”超长Reasoning过程的低延迟等待要求,AI Agent应用的机-机交互场景的多任务快速响应,极致用户体验正驱动推理业务向极低时延下的高吞吐性能目标演进。From:OPT:Open Pre-trained Transformer Language Models,https:/arxiv.org/abs/2205.01068From:The Llama 3 Herd of Models,https:/arxiv.org/ab