未知:使用虚拟化技术提升大模型推理性能实践分析报告(24页).pdf

编号:608651 PDF 24页 3.85MB 下载积分:VIP专享
下载报告请您先登录!

未知:使用虚拟化技术提升大模型推理性能实践分析报告(24页).pdf

1、使用虚拟化技术提升大模型推理性能实践Copyright 2020 4Paradigm All Rights Reserved.背景1 异构分布式AI算力资源池成为必然选择3Copyright 2023 4Paradigm All Rights Reserved.专用芯片/加速卡,能够带来更高效率 供应链安全,需要多来源/供应商采购策略 信创政策,应对复杂的国家形势变化1.1x/年GPUNPUNPUFPGACPU摩尔定律摩尔定律1.5x/年 爆发式增长的数据、更大的模型规模、更快的模型更新速度,都对算力带来新的挑战 CPU的性能从每年提升超过1.5倍降到1.1倍,摩尔定律逐渐失效 异构计算架构的

2、创新将打破现有通用计算的瓶颈,推动摩尔定律持续演进 单机不再满足AI算力需求异构分布式AI算力资源池异构分布式AI算力资源池支持多种异构算力支持模型数据并行 分布式 可扩展分布式集群提升AI性能提高训练资源利用率 GPU池化动态调度感知异构资源自动调整调度策略 提高AI推理资源利用率 GPU自动划分显存显存超售 提高任务成功率 智能资源配置任务自动配置显存/内存资源精准控制Copyright 2020 4Paradigm All Rights Reserved.背景2 国产异构算力发展迅猛4Copyright 2023 4Paradigm All Rights Reserved.近几年国内不少

3、企业在算力设备方面取得进展,包括海光信息、壁仞科技、燧原科技、摩尔线程等。近几年国内不少企业在算力设备方面取得进展,包括海光信息、壁仞科技、燧原科技、摩尔线程等。海光DCU 8000系列,典型功耗260-350W,支持INT4、INT8、FP16、FP32、FP64运算精度,支持4个HBM2内存通道,最高内存带宽为1TB/s、最大内存容量为32GB。海光DCU协处理器全面兼容ROCm GPU计算生态,由于ROCm和CUDA在生态、编程环境等方面具有高度的相似性,CUDA用户可以以较低代价快速迁移至ROCm平台。可以看到,海光DCU是国内唯一支持FP64双精度浮点运算的产品,英伟达的A100、H

4、100都支持FP64,从这一点来看,海光DCU在这方面是比较领先的。天数智芯的BI芯片,集成240亿晶体管,采用7纳米先进制程,支持FP32、FP16、BF16、INT8等多精度数据混合训练,单芯算力每秒147TFP16。寒武纪2021年11月发布的第三代云端AI芯片思元370,相比于上一代芯片,思元370全面加强了FP16、BF16以及FP32的浮点算力,在全新MLUarch03架构和7nm先进工艺加持下,8位定点算力最高为256TOPS。Copyright 2020 4Paradigm All Rights Reserved.Copyright 2023 4Paradigm All Rig

5、hts Reserved.从业人员割裂从业人员割裂国内生态建设不足国内生态建设不足国产算力设备难以重复使用国产算力设备闲置状态严重模型迭代效率低设备层面国产的生态环境相对封闭从业人员存在严重的割裂国产算力难以重复利用国产算力闲置状况严重平台层面 模型推理缺乏统一的标准模型迭代效率低算子的开发和交付效率低,缺乏统一的标准,各个模块对接成本高行业痛点5Project-HAMi:基于k8s的算力复用平台 大模型经常需要配备一些embedding或者validating功能的小模型,若只能整卡部署,则会造成极大的资源浪费 通过虚拟化技术将小模型和大模型复用在一张GPU,从而提升TCO 指标易购算力虚拟

6、化中间件(Heterogeneous AI Computing Virtualization Middleware,简称HAMi,中文名哈密瓜),是一个基于云原声的开源一站式解决不同易购算力复用功能的k8s中间件Project-HAMi:架构图Project-HAMi:架构图$cat EOF|kubectl apply-f-apiVersion:v1kind:Podmetadata:name:gpu-pod12spec:containers:-name:ubuntu-container image:ubuntu:18.04 command:bash,-c,sleep 86400 resourc

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(未知:使用虚拟化技术提升大模型推理性能实践分析报告(24页).pdf)为本站 (AG) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠