1、为大规模为大规模AIAI构建高效数据构建高效数据基础设施的技术挑战与实践基础设施的技术挑战与实践演讲人:常亮目 录01AI 数据存储的特点02AI 存储在混合云场景下面临的技术挑战03CubeFS 支撑AI存储的技术要点与实践04面向 AI 存储构建下一代混合云存储的方案01AI 数据存储的特点AI整体架构云原生基础设施AI平台/服务基础资源Ad RecommendationBreenoADS-GPTpytorch/tensorFlow任务调度数据加速作业管理弹性训练推理大数据集成sGpuGangGPU拓扑数据管理预热缓存kubeflow分布式训练DeepSpeed 框架生命周期模型存储与管理
2、推理引擎事件处理Sparkarena流水线RAYGPU|NPURDMACPUOSSPOSIXHDFS任务调度sGpuGangIDECodeNotebook共享ChatGpt|LLAMAS3/HDFSAI全流程与存储对照02AI 存储在混合云场景下面临的技术挑战模型数据集规模提升https:/ourworldindata.org/artificial-intelligence1.计算资源需求:随着数据点和参数的增加,训练这些模型所需的计算资源和时间大幅提升。2.性能提升:更大的数据集和更复杂的模型通常可以提高模型的性能,使其在各种任务中表现得更加出色。3.挑战:虽然更大的数据和参数量可以提升性能
3、,但也带来了数据管理、训练时间、模型部署和环境影响等方面的新挑战。模型算力需求提升https:/ourworldindata.org/artificial-intelligence模型分发效率要求提升时效性全量、增量更新预热能力缓存能力、淘汰能力安全技术吞吐能力地域分布需求存储成本存储单价多份存储成本叠加时间成本全量同步+增量同步运营成本云服务 vs 自营团队技术难度实效性一致性安全私有云存储Tencent V100公有云存储Ali A100Azure H100公有云存储公有云存储AWS H200公有云存储FLOPS*NIOPS*N03CubeFS 支撑 AI 存储的技术要点与实践CubeFS
4、CubeFS历史简介20192019发起快速迭代20202020202120212022202220232023Mar:Mar:开源Dec:Dec:加入CNCF Sandbox CNCF Sandbox Apr:S3 Apr:S3 接口支持OCT:HDFS OCT:HDFS 兼容强化Mar:Mar:稳定性增强Oct:Remote shuffleOct:Remote shuffle重大版本Jan:Jan:多AZAZ故障域Apr:ErasureApr:Erasure-codecodeJun:Jun:孵化成功Aug:QoSAug:QoS流控&Cache acc&Cache acc筹备毕业Mar:Ma
5、r:审计,稳定性提升Aug:Aug:原子性,稳定性提升,quota quota 目录配额DEC:DEC:回收站20242024增强Jan:Jan:通过第三方安全审计Apr:Apr:稳定性提升&S3&S3OCTOCT:自动化迁移CubeFSCubeFS架构多协议(S3,HDFS,POSIX)兼容多引擎:副本/纠删码可扩展、强一致性云原生数据智能分层加速能力(RDMA、缓存)关键特性OPPO AI OPPO AI 训练架构可用性元数据子系统采用三副本的策略,可用性从99.9%提升至 99.99%。运维成本简洁的架构设计,运维成本大幅度降低,扩容更简便。元数据性能全内存的元数据策略,平均时延缩短至1
6、ms。多协议接入数据兼容技术统一存储底座:不同业务系统的数据的第一个落脚点。数据互通:多协议共享一套数据,提高数据流转效率。混合云冷热分层技术平衡计算性能和存储成本:热数据保留在性能更高的的存储介质,冷数据转移到存储成本更低的介质。基于目录的生命周期策略配置:操作简单,降冷过程无需人工干预,节省运维人力成本。基于租约的降冷策略:降冷过程不影响业务对存储的访问。RDMA 链路加速技术共享内存环:数据拷贝到sendbuf中,再通过RDMA write直接高效的写入到recvBuf中。更高的数据写入效率:数据的传输过程绕过内核和协议层之间的数据拷贝,全程不需要