《马阳_昆仑芯大规模LLM推理优化:在文心一言上的实践.pdf》由会员分享,可在线阅读,更多相关《马阳_昆仑芯大规模LLM推理优化:在文心一言上的实践.pdf(41页珍藏版)》请在三个皮匠报告上搜索。
1、马阳昆仑芯推理框架架构师Part 01.Part 01.Part 02.Part 02.Part 03.Part 03.Part 04.Part 04.行业背景与挑战昆仑芯的推理解决方案大模型推理优化落地实践总结与未来展望大模型大模型从从“参数竞赛参数竞赛”转向转向“算力效率优化算力效率优化”推理部署的核心痛点推理部署的核心痛点高成本高成本集群部署昂贵,阻碍规模化应用高延迟高延迟响应速度慢,难以满足实时交互与在线推理需求资源利用率低资源利用率低算力未充分利用,存在显著的算力浪费规模化挑战规模化挑战如何高效支撑大规模并发推理,是服务能力的关键“算力是大模型的燃料,高效部署是释放潜能的关键。”总参
2、数量从百亿级-万亿级,激活参数量趋于收敛工程效率的提升已经超过单纯堆参数的收益行业背景与挑战行业背景与挑战昆仑芯发展历程昆仑芯发展历程20112011AI加速器研发立项20152015201720172018201820202020落地百度搜索、推荐等核心业务场景国 际 顶 会 Hot Hot ChipsChips发布昆仑发布昆仑芯芯XPUXPU架构架构正式启动昆仑芯系列产品设计昆仑芯昆仑芯1 1代代量产,面向通用场景规模化落地昆仑芯科技完昆仑芯科技完成独立融资成独立融资昆仑芯昆仑芯2 2代代量产,大模型推理场景前瞻布局昆仑芯昆仑芯3 3代代量产,满足大模型时代AI系统更高要求2021.420
3、21.42021.82021.82024202420252025推出32/6432/64卡超节点卡超节点产品产品,发布256/512256/512卡超节点技术卡超节点技术,面向更大规模算力需求昆仑芯昆仑芯P800P800P800 OAM模组基于P800芯片打造,依据OCP-OAM标准设计,是一款面向大模型的高性能大模型的高性能AIAI训练与推理产品训练与推理产品。该产品全面适配业内主流大模型,满足预训练、训练及微调等多场景需求。此外,P800 OAM支持通过IB或ROCE网络构建万卡级超大规模集群,为AI计算提供强大支撑。产品概述产品概述产品规格产品规格产品型号支持精度显存主机设备互联节点内设
4、备互联散热方式规格节点间互联协议P800 OAM 模组FP32/FP16/BF16;INT16/INT8/INT496GBPCIe 5.0 x16XPU Link被动OAM 模组(OAI-OAM 标准)RDMA:RoCE-v2/IB功耗400W昆仑芯超节点昆仑芯超节点256/512256/512卡卡方案即将推出,方案即将推出,为拓展千卡奠定基础为拓展千卡奠定基础4 4倍倍卡间互联总带宽提升卡间互联总带宽提升3.53.5倍倍主流大模型推理任务主流大模型推理任务单卡单卡tokenstokens吞吐提升吞吐提升256256卡卡极速互联极速互联8 8倍倍卡间互联总带宽提升卡间互联总带宽提升单节点支持超
5、大规模模型训练单节点支持超大规模模型训练512512卡卡极速互联极速互联机柜机柜反面反面机柜正面机柜正面32/6432/64卡卡方案,方案,自研自研XPUXPU LinkLink互联通信技术,突破带宽和延迟限制互联通信技术,突破带宽和延迟限制8 8倍倍卡间互联带宽提升卡间互联带宽提升:5-105-10倍倍1313倍倍单卡推理性能提升:单卡推理性能提升:单机训练性能提升:单机训练性能提升:万亿参数万亿参数操作系统模型框架应用计算硬件LibrariesLibraries昆仑芯昆仑芯软件栈软件栈SDKSDK运行层运行层大模型/生成式/多模态 训练和推理 应用和集成工具开源大模型传统AI模型PyTor
6、chUbuntu昆仑芯AI加速器计算视觉库XECVFlash Attention/Transformer加速库矩阵乘法模版库深度神经网络加速库XDNN基础编译套件XTDK驱动和管理工具集运行时库 XRE数据中心套件XTRANSCUDAXTRITON调试调优工具其他OS 如统信UOS,麒麟Kylin等通信库XCCL传统AI应用推理部署 XTRT-LLMDeepSpeedMegatron闭源大模型PaddlePaddle其他框架线性代数库和其他数学库CentOSDebianBC-Linux昆仑芯软件架构昆仑芯软件架构PD混合/分离DP/EP/SP/TP 混合并行飞桨推理框架昆仑芯高性能加速软件栈I