当前位置:首页 > 报告详情

未知:使用虚拟化技术提升大模型推理性能实践分析报告(24页).pdf

上传人: AG 编号:608651 2024-01-01 24页 3.85MB

1、使用虚拟化技术提升大模型推理性能实践Copyright 2020 4Paradigm All Rights Reserved.背景1 异构分布式AI算力资源池成为必然选择3Copyright 2023 4Paradigm All Rights Reserved.专用芯片/加速卡,能够带来更高效率 供应链安全,需要多来源/供应商采购策略 信创政策,应对复杂的国家形势变化1.1x/年GPUNPUNPUFPGACPU摩尔定律摩尔定律1.5x/年 爆发式增长的数据、更大的模型规模、更快的模型更新速度,都对算力带来新的挑战 CPU的性能从每年提升超过1.5倍降到1.1倍,摩尔定律逐渐失效 异构计算架构的

2、创新将打破现有通用计算的瓶颈,推动摩尔定律持续演进 单机不再满足AI算力需求异构分布式AI算力资源池异构分布式AI算力资源池支持多种异构算力支持模型数据并行 分布式 可扩展分布式集群提升AI性能提高训练资源利用率 GPU池化动态调度感知异构资源自动调整调度策略 提高AI推理资源利用率 GPU自动划分显存显存超售 提高任务成功率 智能资源配置任务自动配置显存/内存资源精准控制Copyright 2020 4Paradigm All Rights Reserved.背景2 国产异构算力发展迅猛4Copyright 2023 4Paradigm All Rights Reserved.近几年国内不少

3、企业在算力设备方面取得进展,包括海光信息、壁仞科技、燧原科技、摩尔线程等。近几年国内不少企业在算力设备方面取得进展,包括海光信息、壁仞科技、燧原科技、摩尔线程等。海光DCU 8000系列,典型功耗260-350W,支持INT4、INT8、FP16、FP32、FP64运算精度,支持4个HBM2内存通道,最高内存带宽为1TB/s、最大内存容量为32GB。海光DCU协处理器全面兼容ROCm GPU计算生态,由于ROCm和CUDA在生态、编程环境等方面具有高度的相似性,CUDA用户可以以较低代价快速迁移至ROCm平台。可以看到,海光DCU是国内唯一支持FP64双精度浮点运算的产品,英伟达的A100、H

4、100都支持FP64,从这一点来看,海光DCU在这方面是比较领先的。天数智芯的BI芯片,集成240亿晶体管,采用7纳米先进制程,支持FP32、FP16、BF16、INT8等多精度数据混合训练,单芯算力每秒147TFP16。寒武纪2021年11月发布的第三代云端AI芯片思元370,相比于上一代芯片,思元370全面加强了FP16、BF16以及FP32的浮点算力,在全新MLUarch03架构和7nm先进工艺加持下,8位定点算力最高为256TOPS。Copyright 2020 4Paradigm All Rights Reserved.Copyright 2023 4Paradigm All Rig

5、hts Reserved.从业人员割裂从业人员割裂国内生态建设不足国内生态建设不足国产算力设备难以重复使用国产算力设备闲置状态严重模型迭代效率低设备层面国产的生态环境相对封闭从业人员存在严重的割裂国产算力难以重复利用国产算力闲置状况严重平台层面 模型推理缺乏统一的标准模型迭代效率低算子的开发和交付效率低,缺乏统一的标准,各个模块对接成本高行业痛点5Project-HAMi:基于k8s的算力复用平台 大模型经常需要配备一些embedding或者validating功能的小模型,若只能整卡部署,则会造成极大的资源浪费 通过虚拟化技术将小模型和大模型复用在一张GPU,从而提升TCO 指标易购算力虚拟

6、化中间件(Heterogeneous AI Computing Virtualization Middleware,简称HAMi,中文名哈密瓜),是一个基于云原声的开源一站式解决不同易购算力复用功能的k8s中间件Project-HAMi:架构图Project-HAMi:架构图$cat EOF|kubectl apply-f-apiVersion:v1kind:Podmetadata:name:gpu-pod12spec:containers:-name:ubuntu-container image:ubuntu:18.04 command:bash,-c,sleep 86400 resourc

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了使用虚拟化技术提升大模型推理性能的实践。背景部分指出,随着数据爆发式增长、模型规模扩大和更新速度加快,对算力提出了新的挑战。异构计算架构的创新成为打破现有通用计算瓶颈、推动摩尔定律持续演进的关键。国内企业在算力设备方面取得进展,如海光信息、壁仞科技、燧原科技、摩尔线程等。 关键点包括:1) 虚拟化技术如GPU池化、动态调度感知异构资源、自动调整调度策略等,能提高AI推理资源利用率;2) 国产异构算力发展迅猛,例如海光DCU、天数智芯的BI芯片、寒武纪的思元370等;3) 从业人员和国产算力设备存在割裂,国产算力难以重复利用和闲置状况严重;4) 平台层面,模型推理缺乏统一标准,算子开发和交付效率低;5) 实践案例中,第四范式推理加速框架SLX LLM和推理加速卡SLX,能使大模型推理性能提升10倍,兼容主流大模型推理框架。 文章还提到了Project-HAMi,这是一个基于k8s的算力复用平台,通过虚拟化技术将小模型和大模型复用在一张GPU上,提升TCO指标。最后,感谢第四范式(北京)技术有限公司对本文的支持,并提供了他们的联系方式和地址。
"如何通过虚拟化技术提升AI模型推理性能?" "国产异构算力发展现状与未来趋势分析" "第四范式推理加速框架SLX LLM的实际应用案例分享"
客服
商务合作
小程序
服务号
折叠