当前位置:首页 > 报告详情

鲁蔚征-面向AI应用的文件系统与评测基准.pdf

上传人: 张** 编号:155615 2024-02-15 16页 657.74KB

1、鲁蔚征 中国人民大学Weizheng LuRenmin University of ChinaFile Systems and Benchmark Tools for AI StorageOutlinesML/AL WorkloadsDistributed File Systems for AIBenchmark Tools&ResultsML/AI WorkflowsTrainingPreprocessingData Loadersmall or big filesTFRecord or raw fileCheckpointInferenceTypical AI DatasetsImages

2、 and VideosImageNet:14M small filesyoutube-8M:1.53TBTextC4The PileFalcon-RefinedWebRecommendation SystemsML/AI Training CharacterizationsBig DataSame Data Multiple Training Jobshyper-parameter tuningdifferent model archietcure,different parameters(learning rate,loss function)Fluid,Microsoft QuiverCo

3、mpute Nodes SSD or RAMglobal storage pute nodes local storageLustre PCC,Alluxio,JuiceFS,Preprocessing:Falcon-RefinedWeb2.8TB extractedFalcon 180B LLMPipelinesPreparationFilteringDeduplicationhttps:/arxiv.org/abs/2306.01116Timeline of Distributed File Systemsl20032003Lustre Initial Releasel20062006Ha

4、doopHDFSl20062006AmazonIntroduced S3ll20032003-20062006CephShown on OSDI06 and SC06l20072007BeeGFSbeta on ISC07Timeline of Distributed File Systems(cont.)l20122012AlexNetImageNetl20142014Alluxiol20162016YRCloudFilel20172017JuiceFSl20202020GPT3l20222022ChatGPTl20142014Wekal20152015Kubernetes1.0 Relea

5、sedPOSIX or notProsConsFile SystemsPOSIXdevs,ops,and software rely on POSIXPortableoverheadLustre,JuiceFSnon-POSIXlow costlimited abilitiesadditional codeHDFS,S3Case Study:AlluxioGoal:Data OrchestrationUnder StoreS3,HDFS,POSIX FSWorkersCache on RAM or SSDClientfuseCase Study:JuiceFSGoal:high-perform

6、ance,cloud nativedata is chunked on S3,HDFSmetadata is in redis,MySQL,PostgreSQLclient mount fuseCommon Benchmark Toolstraditional tools IOPS&BandWidth(BW)fiomdtestiozonereal-world workloadsML benchmarkMLPerfMLPerfa suite contains mainstrea

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了在AI存储领域中,文件系统与基准测试工具的应用。作者鲁蔚征,来自中国人民大学,概述了面向机器学习和人工智能的文件系统及基准测试工具,并讨论了分布式文件系统的发展历程,如Lustre、Hadoop HDFS、Amazon S3、Ceph、BeeGFS等。同时,文章还介绍了AI工作流程,包括训练、预处理、数据加载等,以及典型的AI数据集,如图像、视频、文本等。作者还分析了AI训练的特点,如大数据、相同数据的多训练任务、超参数调优等。最后,文章通过Alluxio和JuiceFS的案例研究,讨论了数据 orchestrasion和云原生高性能存储的实现。文中还提到了MLPerf基准测试,模拟主流AI工作负载,以及不同文件系统下的基准测试结果。
"AI存储如何选择合适的分布式文件系统?" "如何通过基准测试工具评估AI存储性能?" "在AI训练中,如何平衡存储成本与性能?"
客服
商务合作
小程序
服务号
折叠