1、云原生存储CubeFS在大数据和机器学习的探索和实践O P P O-安 第 斯 智 能 云/唐 之 享010203CubeFSCubeFS产品介绍产品介绍CubeFSCubeFS在机器学习的应用和实践在机器学习的应用和实践CubeFSCubeFS在大数据的应用和实践在大数据的应用和实践CubeFSCubeFS的未来演进的未来演进04CubeFSCubeFS是托管在云原生计算基金会(CNCF)的新一代云原生开源存储产品,目前处于孵化阶段,具备完整的文件和对象存储能力。产品官网:https:/cubefs.iohttps:/cubefs.io系统组件系统组件资源管理子系统 元数据子系统 数据子系统
2、多副本引擎纠删码引擎 多协议客户端Metadata SubsystemMeta NodeMeta NodeMeta Partition(In-memory)ContainerVMServerClientClientMasterData SubsystemData PartitionPOSIX/HDFS interfaceVolumeData NodeData NodeBlob NodeBlob NodeApplication AWS S3 SDKObjectObject NodeNodeObject SubsystemErasure Code Stripe/abcdeRootmp0mp0mp1
3、mp1mp1mp2mp2mp2二层索引inodeinodelocationmp0multi-raft元数据子系统特性元数据子系统特性可扩展:可扩展:支持线性扩展高性能:高性能:全内存缓存高可靠:高可靠:定期快照+Raft wal日志强一致:强一致:元数据分片(mp)在不同节点上,Raft保证强一致性多副本引擎多副本引擎多种复制协议:多种复制协议:顺序写采用NRW,随机写采用Raft协议。大小文件优化:大小文件优化:大文件分片存储,小文件聚合存储。高效回收机制:高效回收机制:基于文件系统punch hole机制提升已删除空间回收效率。DataNodeDataNodeDataPartitionDa
4、taNodeDataNodeDataPartitionDataNodeDataNodeDataPartitionDataPartitionDataPartition大文件大文件分片分片小文件聚合小文件聚合顺序写顺序写multiraft随机写 在线编码在线编码 :接入层直接在线计算纠删码后写入存储节点。高可用性高可用性 :Raft秒级切换保证元数据服务高可用。高可靠性高可靠性 :后台服务数据巡检、数据修补、坏盘检测等保证高可靠性。多多AZAZ部署:部署:支持1、2、3AZ部署,支持AZ级别容灾。access数据均衡后台服务后台服务元数据中心元数据中心接入层接入层存储资源池存储资源池数据巡检数据修
5、补异步删除accessaccessaccessClusterManagerAZ1AZ1nodenodenodenodenodenodenodenodenodenodenodenodeAZ0AZ0AZ2AZ2坏盘修复Raft多协议接入多协议接入支持S3、POSIX、HDFS多种协议。多协议共享同一套元数据和数据。提升数据复用效率。提升资源利用率。S3HDFSPOSIX图片文本音视频IOTFlinkTrinoSparkPytorchPaddlePaddleTensorflowS3HDFSPOSIX以前以前现在现在多协议多协议双引擎双引擎可扩展可扩展高性能高性能多租户多租户云原生云原生支持多副本及纠
6、删码引擎,用户可以根据业务场景灵活选择。可轻松构建PB或者EB级规模的分布式存储,各个模块可水平扩展。元数据全内存存储,支持多级缓存,大小文件优化。支持多租户管理,提供细粒度的租户隔离策略。基 于 C S I 插 件 可 快 速 在Kubernetes上使用CubeFS。兼容S3、POSIX、HDFS等多种访问协议,协议间访问可互通。CubeFS在机器学习中的应用多级缓存2019202020212022CephFS存储CephFS与CubeFS混存CubeFS统一存储CubeFS统一存储与多级缓存加速 MDSMDS的性能瓶颈:的性能瓶颈:主备模式的MDS无法水平扩容,单个MDS承担过多元数据导