1、打破数据瓶颈Alluxio 加速大模型全链路数据 IOAlluxio 核心研发工程师及社区 PMC 胡梦宇Alluxio 简介目录性能测试客户案例Alluxio 简介01数据编排平台助力云原生大数据分析和AI计算Alluxio AI 数据平台架构高性能数据访问AI/ML框架分布式缓存全局统一视图缓存空间管理企业安全与合规性能和可扩展性DevOps能力Alluxio AI 数据平台云本地混合云跨云零改造、无侵入vAPPAPPLLMAPPvAPPAPPLLMAPPTOSAlluxio AI 核心技术特点统一数据视图alluxio:/host:port/cephminioossOSSNAS高性能数据
2、访问自动冷、热分层零侵入分布式缓存高性能 I/O丰富缓存数据管理高可用高容错丰富协议支持S3 DriverHDFS DriverGCS DriverAzure DriverOSS DriverS3 APIHDFS APIPOSIX APIJava APIREST APIPython SDKCOS Driver可以无缝对接数据预处理环节中的Spark/Flink等计算引擎,无需任何代码变动可以有效解决数据预处理环节,数据分散在多处异构存储的统一访问问题;可以有效加速数据预处理环节的数据读写性能;可以使得数据预处理的结果在缓存中无缝被后续模型训练等环节使用。在 AI 工作流中集成 Alluxio可
3、在标准的低成本存储部署运行训练数据访问加速,GPU利用率保持90%以上减少数据副本,统一数据访问,灵活对接GPU集群按需自动加载、缓存替换,简化运维复杂度支持超高并发的模型服务(从训练集群到推理集群)数据预处理扩展到100亿对象以上,满足AI需求生产环境下的部署时间降低至原先的1/2-1/3减轻网络带宽竞争,降低底层存储负载根据使用模式实施数据预加载模型部署作为 ETL和模型训练的数据共享层模型部署模型训练Alluxio AI 助力模型训练加速2-8x数据访问速度提升集训可扩展性高、训练任务容错性高模型迭代更高效降低数据工程复杂性和成本去中心化架构,支持100亿以上对象训练任务快速无缝在多个G
4、PU机房迁移APPAPPSSDSSDAPPSSDSSDAPPSSDSSDAlluxio-fuseAlluxio-fuseAlluxio-fuseAlluxioCaching layerGPU MachineGPU MachineGPU MachineIDC-1APPSSDSSDAPPSSDSSDAPPSSDSSDAlluxio-fuseAlluxio-fuseAlluxio-fuseAlluxioCaching layerGPU MachineGPU MachineGPU MachineIDC-2NAS-1APPNAS-2图片采集图片前处理标注系统数据清洗数据集增加、变更1.多个GPU集群共享
5、一个数据源2.无需改代码,训练任务可以直接调度/迁移3.GPU集群可以按需接入多个数据源性能测试MLPerf Storage Benchmark02测试环境测试准备测试基于 Alluxio Enterprise AI 3.6 高性能数据平台,模型训练任务直接通过 Alluxio Fuse(POSIX 协议接口)向 Alluxio 集群请求缓存数据进行训练,训练集群及 Alluxio 集群的拓扑分布如下:高性价比AI训练:用通用硬件,实现极致模型性能不同于其他厂商依赖昂贵的定制化硬件,Alluxio 本次直接选用 AWS 上的高性价比商用实例事实证明,即便在标准硬件环境下,Alluxio 依旧能
6、为模型训练提供极致的加速性能。测试模拟的训练工作负载,涵盖多个行业的常见 AI 模型训练类型,这些模型的训练负载涵盖了针对大、小文件的顺序读、随机读等多样化的 I/O 模式,旨在充分检验系统在不同 I/O 压力下的真实表现。核心亮点:超高的加速器利用率加速器利用率是衡量数据系统效率的黄金标准,也是MLPerf 基准测试的核心要求。在此关键指标上,Alluxio 表现卓越:在 3D-Unet 和 ResNet50 模型测试中,加速器利用率双双突破 99%。尤其在元数据密集型的 ResNet50 负载下,加速器利用率更是高达 99.57%。顶级的表现在全球知名厂商中脱颖而出,彰显了 Alluxio