当前位置:首页 > 报告详情

【Shopee】Alluxio在Shopee加速AI场景的应用.pdf

上传人: 张** 编号:153230 2024-01-15 25页 3.40MB

1、Alluxio在Shopee加速AI场景的应用孙颢宁Shopee|Data Infra目录 Shopee AI 平台的发展与现状 Alluxio助力 AI 平台 Alluxio加速 AI 实践 未来规划Shopee AI 平台的发展与现状PART 1不同业务部门各自购买云服务进行训练,资源利用率低;构建AI平台的背景不同业务部门使用互不关联的工具和系统,影响了部门之间的协作和工作效率。AI平台涵盖了整个人工智能生命周期,包括数据集管理、模型训练、评估和部署,为人工智能生产提供了专业、便捷的环境。AI 平台的架构性能问题,目前gpu的模型训练速度越来越快,IO速度与gpu的训练速度不匹配,会严重

2、影响模型训练的效率。使用Alluxio可对数据进行预热,加速训练;为什么选择AlluxioAlluxio-FUSE支持POSIX协议,操作文件更便捷;Fluid开箱即用,基于K8S提供灵活部署Alluxio集群的能力。Alluxio助力AI平台PART 2存储服务化,提供FUSE和S3两种便捷的访问方式;提供Forward System,方便跨集群访问数据;加速Presto查询,减少带宽占用;加速AI训练。Alluxio服务架构AI训练的工作流程准备数据模型选择模型训练模型评估模型部署模型维护FetchCleanPrepareTrainmodelEvaluatemodelDeploy mode

3、lMonitor/collect data/evaluateAlluxio加速AI训练架构DI Alluxio集群与AI平台位于不同的机房;AI平台通过S3接口导入数据到Ceph中,然后挂载到使用Fluid创建的Alluxio集群;在K8S启动的Alluxio集群中预加载全部数据;通过FUSE读取数据,进行训练。Alluxio加速AI实践PART 3原方式:用户申请挂载,管理员审批挂载;Migrate data 开放挂载接口现方式:管理员创建规则,用户自动挂载,检查器根据规则判断。AI平台通过S3接口导入HDFS数据到Ceph,Alluxio需要申请挂载的方式不适合平台对接。在保障HDFS数据

4、安全的前提下,自动挂载的方式使AI平台的服务流程自动化。Load metadata新方式 回放snapshot文件在将数据集导入到Ceph时将文件的元数据(path和size)保存到一个snapshot文件中;启动Alluxio master时即加载snapshot文件到本地并进行缓存;load metadata时直接将缓存的元数据适配成listObject所需的格式。测试100w文件的数据集,load metadata效率提高了100%,避免向Ceph发送大量的listObject请求。Ceph处理listObject请求会将bucket全部扫描一遍,通过prefix来匹配,大量请求导致Ce

5、ph故障。Load data S3的读放大问题Load显示的throughput明显小于几个worker节点流量的总和。Load data S3的读放大问题rangebytes from cephbytes to worker(0)24k8k(8k)16k8k(16k)8k8krangebytes from cephbytes to worker(0,8k)8k8k(8k,16k)8k8k(16k,24k)8k8kS3AInputstream在openStream时range只设置startPosition,导致读了更多的数据。借鉴了Dora版本中rangeRead的实现来修复2.x的读放大问

6、题。解决S3的读放大问题,测试带宽占用峰值降低了70%,同时读效率提高了近100%。Load data 数据未完全缓存worker总的容量大于总数据量,空间并没有被完全使用,且数据未被完全缓存。scheduler向worker发送任务不考虑容量,容量满的worker也会被分配任务,此时就会驱逐部分数据来缓存新的数据。可能导致在训练过程中数据缓存率越来越低。Load data 数据未完全缓存按照batch来分配任务,所有worker容量不足时按block来分配,整体容量不足时则允许evict发生;load过程中与wo

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
Alluxio在Shopee的AI场景应用中起到了关键作用。Shopee的AI平台面临的问题是不同业务部门使用独立的云服务和工具,导致资源利用率低和协作效率受损。Alluxio解决了IO速度不匹配的问题,通过预热数据和加速训练,提高了模型训练效率。Alluxio的优势包括支持POSIX协议和基于K8S的灵活部署能力。AI训练的工作流程包括数据准备、模型选择、训练、评估、部署和维护。Alluxio加速AI实践的部分展示了如何通过Alluxio优化数据加载、缓存和并发读性能。未来规划包括统一访问HDFS/S3的方式,升级Alluxio到Dora架构以提高稳定性和性能,并管控AI平台和HDFS之间的数据流量。
"Alluxio如何助力Shopee AI平台加速实践?" "Alluxio在Shopee AI场景中如何解决S3读放大问题?" "Shopee AI平台未来将如何优化数据处理与带宽管理?"
客服
商务合作
小程序
服务号
折叠