当前位置:首页 > 报告详情

【Alluxio】Alluxio在高性能AIML数据访问中的应用.pdf

上传人: 张** 编号:153226 2024-01-15 21页 3.11MB

1、Alluxio在高性能AI/ML数据访问中的应用2023/12/09目录 AI/ML 面临的挑战及数据架构发展 Alluxio 高性能AI/ML数据编排/访问平台 Alluxio 在高性能AI/ML数据访问中的应用AI/ML 面临的挑战及数据架构发展PART 1AI/ML 面临的挑战及问题?GPU短缺+GPU利用率低+AI技术设施昂贵+海量数据访问低效+模型训练/上线时间长AI计算/机器学习GPU短缺:”目前 GPU 比毒品更难获得”(Tesla 埃隆马斯克);即使是大型云供应商,分配也需要12个月或更长时间GPU利用率低:即使得到了GPU,GPU利用率也很低(可能由于数据访问问题);GPU花

2、费时间等待数据加载/预热,而不是计算AI基础设施昂贵:GPU资源及专用高性能存储等基础设施价格高昂,造成大规模AI/ML计算的成本问题海量数据处理/访问低效:通用人工智能通常需要海量的数据做支撑,这也要求企业有效地存储、管理及高性能访问大量数据模型训练/上线时间长:AI/ML数据访问/服务性能减缓了AI/ML模型训练及模型上线时间,影响企业快速构建部署模型的能力AI/ML 需要什么样的存储/缓存/数据访问系统?目前主流可选方案高性能并行存储系统:GPFS/CPFS,Lustre等 优点:高性能,POSIX兼容性好 缺点:成本较高;扩展性较差分布式对象存储系统:AWS S3,OSS,MinIO等

3、 优点:成本很低,扩展性好缺点:性能一般;POSIX兼容性受限存储中间件/加速系统:JuiceFS,JindoFS等 优点:成本适中,性能较好 缺点:数据格式私有;数据治理/运维成本高数据编排/缓存系统:Alluxio优点:成本较低,性能较好,数据运维简单 缺点:POSXI兼容性受限AI/ML模型训练需要的存储/缓存/数据访问系统架构选型标准?总体成本:使用较低成本构建面向AI计算任务的高性能数据访问平台-对象存储+缓存系统性能及协议支持:提供高性能数据访问接口,多数据访问协议兼容(POSIX,S3,HDFS等)数据格式及架构开放:支持透明数据格式(保持原始存储目录和文件格式不变);无厂商/技

4、术锁定数据治理/运维:降低数据治理/数据运维对训练流程/效率影响(最少数据迁移时间、简化Data Loader,Data Pipeline流程,减少运维等)Alluxio 在 AI/ML 技术栈中的架构定位持久化存储层Alluxio 高性能数据访问/编排层AI/ML计算框架/推理引擎AI/ML 统一编排层Alluxio 高性能AI/ML数据访问/编排平台PART 2Alluxio Enterprise AI 3.0 赋能高性能AI/ML计算数据处理特征工程模型训练模型部署原始数据处理过数据特征数据训练数据模型模型/缓存命中结果新结果Alluxio Enterprise AI 3.0基于模型训练

5、和推理的数据访问模式提供高性能数据服务针对大语言模型(LLM)、大规模自然语言处理(NLP)及计算机视觉(CV)等AI/ML计算提供高性能数据访问Alluxio 高性能AI/ML计算应用参考架构数据处理使用 Alluxio 作为数据访问网关或写缓存特征工程使用Alluxio作为在线存储或者离线存储模型训练使用 GPU 读取训练数据、视觉(图像)或 NLP/LLM(文本)模型部署使用经过训练好的模型进行推理或预测Curated/Processed DataModelSpark or PyTorchS3 or HDFSSparkSpark or PyTorchLanding/Raw DataS3

6、or POSIXS32FeatureProcessed dataModelData&FeatureResultModelModelRegion BRegion CRegion ATopologyStorageComputeStageNamespace or Write Cache1Read Cache2Data MigrationAlluxio 产品核心能力/特性及技术价值Alluxio面向AI/ML场景的应用Alluxio面向AI/ML场景的高性能数据访问加速基于Alluxio的 AI/ML数据访问技术架构及业务价值加速模型训练/上线速度提高GPU利用率30%90%降低API改造/适配成本减

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
Alluxio是一种高性能的AI/ML数据编排和访问平台,它在AI/ML技术栈中的架构定位为数据访问和编排层,位于持久化存储层和AI/ML计算框架/推理引擎之间。Alluxio能够提高GPU利用率,降低存储成本,减少数据复制和数据加载时间,从而加速模型训练和上线速度。在多个应用案例中,Alluxio都取得了显著的效果,例如在顶级互联网金融服务公司中,Alluxio使得GPU利用率从20-30%提高到90%以上,降低了数据工程成本75%。在国内头部车载智能计算厂商中,Alluxio提升了模型训练性能和GPU利用率,数据下载速度提升了2倍到10倍,训练时间从18小时缩短到14小时。在国内Top3证券公司中,Alluxio + HDFS替代NAS,降低了采购成本,同时提升了模型上线性能。Alluxio的价值在于桥接不同厂商的存算平台,降低系统集成成本,提升数据访问速度和模型部署速度,从而降低成本,提高效率。
"Alluxio如何提高AI/ML模型训练效率?" "Alluxio如何降低AI/ML计算的成本?" "Alluxio如何优化AI/ML数据访问性能?"
客服
商务合作
小程序
服务号
折叠