未知：使用虚拟化技术提升大模型推理性能实践分析报告-三个皮匠报告

1、使用虚拟化技术提升大模型推理性能实践Copyright 2020 4Paradigm All Rights Reserved.背景1 异构分布式AI算力资源池成为必然选择3Copyright 2023 4Paradigm All Rights Reserved.专用芯片/加速卡，能够带来更高效率供应链安全，需要多来源/供应商采购策略信创政策，应对复杂的国家形势变化1.1x/年GPUNPUNPUFPGACPU摩尔定律摩尔定律1.5x/年爆发式增长的数据、更大的模型规模、更快的模型更新速度，都对算力带来新的挑战 CPU的性能从每年提升超过1.5倍降到1.1倍，摩尔定律逐渐失效异构计算架构的

2、创新将打破现有通用计算的瓶颈，推动摩尔定律持续演进单机不再满足AI算力需求异构分布式AI算力资源池异构分布式AI算力资源池支持多种异构算力支持模型数据并行分布式可扩展分布式集群提升AI性能提高训练资源利用率 GPU池化动态调度感知异构资源自动调整调度策略提高AI推理资源利用率 GPU自动划分显存显存超售提高任务成功率智能资源配置任务自动配置显存/内存资源精准控制Copyright 2020 4Paradigm All Rights Reserved.背景2 国产异构算力发展迅猛4Copyright 2023 4Paradigm All Rights Reserved.近几年国内不少

3、企业在算力设备方面取得进展，包括海光信息、壁仞科技、燧原科技、摩尔线程等。近几年国内不少企业在算力设备方面取得进展，包括海光信息、壁仞科技、燧原科技、摩尔线程等。海光DCU 8000系列，典型功耗260-350W，支持INT4、INT8、FP16、FP32、FP64运算精度，支持4个HBM2内存通道，最高内存带宽为1TB/s、最大内存容量为32GB。海光DCU协处理器全面兼容ROCm GPU计算生态，由于ROCm和CUDA在生态、编程环境等方面具有高度的相似性，CUDA用户可以以较低代价快速迁移至ROCm平台。可以看到，海光DCU是国内唯一支持FP64双精度浮点运算的产品，英伟达的A100、H

4、100都支持FP64，从这一点来看，海光DCU在这方面是比较领先的。天数智芯的BI芯片，集成240亿晶体管，采用7纳米先进制程，支持FP32、FP16、BF16、INT8等多精度数据混合训练，单芯算力每秒147TFP16。寒武纪2021年11月发布的第三代云端AI芯片思元370，相比于上一代芯片，思元370全面加强了FP16、BF16以及FP32的浮点算力，在全新MLUarch03架构和7nm先进工艺加持下，8位定点算力最高为256TOPS。Copyright 2020 4Paradigm All Rights Reserved.Copyright 2023 4Paradigm All Rig

5、hts Reserved.从业人员割裂从业人员割裂国内生态建设不足国内生态建设不足国产算力设备难以重复使用国产算力设备闲置状态严重模型迭代效率低设备层面国产的生态环境相对封闭从业人员存在严重的割裂国产算力难以重复利用国产算力闲置状况严重平台层面模型推理缺乏统一的标准模型迭代效率低算子的开发和交付效率低,缺乏统一的标准,各个模块对接成本高行业痛点5Project-HAMi：基于k8s的算力复用平台大模型经常需要配备一些embedding或者validating功能的小模型，若只能整卡部署，则会造成极大的资源浪费通过虚拟化技术将小模型和大模型复用在一张GPU，从而提升TCO 指标易购算力虚拟

6、化中间件（Heterogeneous AI Computing Virtualization Middleware，简称HAMi，中文名哈密瓜),是一个基于云原声的开源一站式解决不同易购算力复用功能的k8s中间件Project-HAMi：架构图Project-HAMi：架构图$cat EOF|kubectl apply-f-apiVersion:v1kind:Podmetadata:name:gpu-pod12spec:containers:-name:ubuntu-container image:ubuntu:18.04 command:bash,-c,sleep 86400 resourc

未知：使用虚拟化技术提升大模型推理性能实践分析报告（24页）.pdf

相关报告