《云原生场景下 Fluid 加速 AIGC 工程化实践-车漾.pdf》由会员分享,可在线阅读,更多相关《云原生场景下 Fluid 加速 AIGC 工程化实践-车漾.pdf(23页珍藏版)》请在三个皮匠报告上搜索。
1、Fluid加速云原生场景下AIGC工程化实践阿里云高级技术专家车漾餐aConInfoQ极客传媒全球较件开发大全#page#大模型推理对基础设施带来更多挑战AI商业化的时代,大模型推理比训练会被更加广泛的使用大模型推理对基础设施服务能力的挑战是阶跃式的有限计算资源下运行更多服务按需使用,避免浪费对“成本、性能、效率”的要求,成为LLM/AIGC快速落地的高门槛成本NLPs Moores Law:Everyyearmodelsizeincreasesby101800Cooge:4401.6T效率性能1080GPTRMicrosofT-NLG8no78360BERTGPT2GPT用户等待时间模型数据
2、不断选代8-38800.34B1580.058更高的弹性性能更新低耗时至关重要2017201820202021389https/modlaconInfoQ极客传媒#page#基于容器的AI/大数据成为云原生时代的技术超势Kubernetes和容器技术帮助用户简化GPU资源运维流程,承载用户业务AIGC应用的同时利用弹性优势节省成本AI工程化向云原生架构演进从无状态应用,到企业核心应用,到Al/大数据应用传统架构云原生架构资源管理分散资源池化:弹性、灵活生产流程割裂、效率低生产流程高效闭环Kbos团队协作、共享困难多角色协同,加速送代CopuleNetcrkSioroeSecurilyPubli
3、e CoudEdeComputingPriyate Ckoud更快的创新和选代交付更高的稳定性要求更弹性的算力需求Gartner预测:到2023年70%的AI应用是基于容器和Serverless技术开发IDC预测:By2025,Nearly50%ofAllAccIntegratedwith Enterprise SoftwareaconInfoQ极客传媒#page#AIGC模型推理服务在云原生场景下的痛点云原生计算存储分离架构导致的数据访问高延退、带宽受限问题在AIGC大模型时代越发明显,同时影响成本、性能和效率Kubernetes例子PodPodPod北京上海杭州如果一个Pod启动Bloom
4、-175B模型(FP16精度模型大小约340GiB),耗时约4970秒,其中加载模型4300秒(85%)ContainerContainerContainer-HPA创建Pod(10秒)一创建节点(约45-60秒)ne(PV)Storage PersistentVolur-拉取镜像(600秒)nas drwars3fs/ossfsdisk drwerVPC Network业务初始化,加载模型(4300秒)Disk/NAS/Object StorageaConInfoQ极客传媒#page#AIGC模型推理服务在云原生场景下的痛点缓存可以加速数据访问的效率,但在云原生AI模型推理场景中实际使用仍然
5、面临许多工程问题Kubernetes运维管理问题资源成本问题PodPodPod缓存系统如何管理生命周期?缓存需要额外的计算和存储资源。运维可观测性如何隆低资源成本ContainerContainerContainer模型跨区域同步额用户体验问题缓存性能问题如何访问缓存中的数据?缓存与应用之间的亲和性怎么对接容器应用?调度怎么配置?存储配置问题性能调优问题Data Cache缓存数据如何分布?根据业务场景缓存如何参数优?用什么介质存储?VPC NetworkfeFluIdDisk/NAS/object StorageaConInfoQ极客传媒#page#Fluid是什么?Data-Intensi
6、ve AppsICLOUDNATIVE(HuggingFace,Tensorlow.PyTorch,Spark,Presto,)PSANDBOXFluid核心功能FluId数据抽象与管理:通过Dataset、Runtime、DataDatasetOperations概念分别描述数据源、缓存运行时和数DataAlluxioJuiceFsEFCThin据缓存运维操作。OperationsRuntimRuntimRuntin亲和性调度:结合缓存位置信息,提升数据访问效率。缓存弹性:自动弹性伸缩控制缓存规模,平衡性能和Data FlowData AbstractionData AccessCache