1、性能全闪件系统的设计与实践张涛焱融科技CTO0102030405录模型时代的存储挑战YRCloudFile的设计案级运维特性AI训练推理解决案总结和未来规划01模型时代的存储挑战AI数据增的挑战AI 数据处理的挑战数据采集数据预处理数据训练推理数据归档 多协议访问 容量 并发 宽带 多协议访问 数据检索 IO 混合 IO 读写混合 量读请求 宽带 海量件 模型部署 宽带 KV Cache 卸载 数据命周期管理 低成本 随时可访问AI 存储临的主要挑战性能横向扩展训练启动产的读流量暴 训练阶段产量的 IO 随机读请求 定期的 checkpoint 产瞬时的写流量暴 推理阶段产量的 KV Cach
2、e,顺序读写,延迟敏感AI 未来对存储性能要求的增要于对容量的增,存储集群的性能扩展要能够跟得上计算能的增容量和成本随着 AI 的爆发,数据容量的增速加剧,企业需要考虑存储的成本问题海量件随着多模态模型的爆发,件数量越来越多,海量件场景严重影响了训练的数据吞吐,影响训练效率02YRCloudFile的设计案YRCloudFile 核组件POSIX私有客户端(CLIENT)集群管理服务(MGR)元数据管理服务(MDS)数据管理服务(OSS)性能的基效的数据路由算法数据路由算法 件打散到多个 OSD 件创建的时候指定 OSD 组 通过计算获取切位置,避免访问 MDSFile 2File 1File
3、 3file 10OSDfile 3file 11OSDfile 2file 2file 32OSDfile 2file 3file 13OSDfile layout=osd1,osd2 osdnreq=file_id,offset,len通过计算获取请求发送的oss节点和osd盘通过file_id计算出对应盘上的具体位置增强性能优化案Multi-Channel1.多卡带宽聚合,节点带宽能翻倍增2.多卡冗余,单个卡的故障不影响节点的状态3.动检测卡状态,卡恢复后动感知并恢复NUMA亲和性1.OSS服务绑定NUMA2.IB卡绑定NUMA3.NVMe盘绑定NUMA避免跨NUMA内存访问,性能幅提升
4、RDMA单边操作1.IO采RDMA read/write2.IO和元数据采RDMA send/recv减少内存拷,带来更稳定的读写延迟和更低的CPU负载全闪体机产品F9000X3 节点集群性能 480GB/s,750万 IOPS 每 GBps 带宽 成本下降 60%第 5 代英特尔 强可扩展处理器 NVIDIA NDR400 InfiniBand/400GbE Ethernet RoCE持 E3.S/U.2 PCIe 5.0 TLC和 QLC NVMe SSD焱融追光体机 F9000X智能数据分层冷数据动分层对象存储丰富运维段配额管理、志审计、回收站弹性数据络同集群可使IB及以太访问智能数据加
5、载打通对象和件的数据流动 每节点双卡 400Gb IB/RoCE 络 持 SpectrumX 单节点性能 90GB/s 带宽 和 250 万 IOPS 基于多 IB/RoCE Multi Channel 性能优化 持 GDS 级特性海量件的关键分布式元数据集群 基于 Dentry Hash 的分布式元数据策略 集群初始化会固定根录位置 录会 hash 选择 MDS,保证横向扩展的能 件跟录在同个节点,保证定程度的本地性/dir 1file 1dir 3file 2file 1file 2file 1dir 2file 2file 1file 2MDS 1MDS 2MDS 3MDS 4元数据集群
6、元数据操作优化客户端lookupstatgetxattropenreadclose元数据集群数据集群cachecachereadonlylazy closepage cache元数据集群性能线性扩展元数据集群海量件性能对规模集群和海量客户端集群视图同步集群跳管理主从状态切换clientclientclientclientclientclientclientclientclientMGRMGRMGR管理集群播集群视图MDSMDS元数据集群MDSMDSMDSMDS上报跳上报跳OSDOSD数据集群OSDOSDOSDOSD 采 UDP 消息通知,批量通知并获取 ACK 推拉结合,避免事件通知丢失 OS