徐榜江-湖流一体:基于 Fluss 和 Lance 构建实时多模态数据湖_final.pdf

编号:1188831 PDF 37页 5.42MB 下载积分:VIP专享
下载报告请您先登录!

徐榜江-湖流一体:基于 Fluss 和 Lance 构建实时多模态数据湖_final.pdf

1、徐榜江湖流一体:湖流一体:基于基于 Fluss Fluss 和和 Lance Lance 构建实时多模态数据湖构建实时多模态数据湖目目录录01010202030304040505AIAI时代对数据湖的需求与挑战时代对数据湖的需求与挑战FlussFluss 流存储流存储 和和 LanceLance湖格湖格式式湖流一体架构和核心收益湖流一体架构和核心收益DemoDemo:实时多模态数据湖构建实时多模态数据湖构建总结与展望总结与展望01AI时代对数据湖的需求与挑战AIAI 应用爆发对数据存储的挑战应用爆发对数据存储的挑战 非结构化的数据随LLM 和GenAI 兴起快速增长 传统数据湖缺乏对多模态数据

2、、元数据小文件支持多模态数据快速增长多模态数据快速增长 实时推荐、实时分析、智能客服、AIGC 等应用需要持续实时数据 特征工程、实时分析等场景需要高效列裁剪等能力,基于行存的传统消息队列很难满足实时数据分析需求激增实时数据分析需求激增 模型训练过程需要高质量、版本化的数据集,需要数据溯源、数据血缘等能力 相比提升模型复杂度,数据质量更容易提升模型效果数据质量要求更高数据质量要求更高数据合规和治理数据合规和治理 AI模型可能存则泄露隐私、生成幻觉、侵犯版权等问题 AI应用需要系性地治理数据以满足安全和合规需求1234AIAI 时代的数据湖需求时代的数据湖需求=实时实时+多模态多模态多模态数据湖

3、多模态数据湖流存储流存储统一元数据统一元数据AIAI&BIBI 应用应用云对象存储云对象存储数据存储数据存储数据存储数据存储数据接入数据接入数据引擎数据引擎数据应用数据应用元数据元数据Paimon从从数据湖数据湖到到实时多模态数据湖实时多模态数据湖200820102017数据仓库批计算引擎标准数据湖201120142016面向事件的流存储流计算引擎标准云原生的流存储 数据湖流存储2023实时数据湖PaimonPaimon2025面向AI的数据湖2024面向分析和AI的流存储02Fluss 流存储 和 Lance 湖格式Union ReadUnion Read流式写入流式写入实时更新实时更新Se

4、rverServerServer流读流读批读批读Fluss ClusterRemote Storage(S3/OSS/HDFS)Lake(Paimon/Lance/Iceberg)LakeLake Tiering ServiceTiering Service点查点查湖仓分析湖仓分析DatabasesLogsImages*Videos*毫秒级延迟毫秒级延迟列存设计列存设计数据探查数据探查支持更新支持更新下一代流存储下一代流存储面向分析面向分析原生原生schemaschema实时实时CDCCDC列裁剪支持列裁剪支持表达式下推表达式下推湖流一体湖流一体AIAI LakeLake(LanceLance

5、)PythonPython ClientClient超宽表列裁剪超宽表列裁剪面向面向AIAIApacheFluss:面向分析和AI的流存储ApacheFluss 架构设计面向分析场景设计冷热分层:更好的数据管理列式格式:高效列裁剪索引支持:高效 scan支持更新:Log 表+主键表面向 AI 场景设计Lakehouse集成:Lance&Paimon&IcebergPython Client:打通AI生态,PyArrow,PandasApacheFluss 应用:淘宝数据平台数据存储规模数据存储规模数据读取流量数据读取流量大表点查大表点查QPSQPS单表行数单表行数3 PB3 PBKafkaKa

6、fka 方案方案存储成本存储成本网络成本网络成本 数据持续增长 需要维护长周期数据 1 写+10 读 跨AZ 高流量FlussFluss 方案方案数据共享数据共享列裁剪列裁剪 冷存入湖,长周期数据友好 数据存储成本降低30%列存格式(Arrow)分区裁剪成本成本30%30%流量流量70%70%40 GB/s40 GB/s500 K500 K500 B500 BLance:面向AI的多模态湖格式Lance.lance:为ML 和LLM 设计的文件格式面向 AI 工作负载的 tradeoffDataData Pages Pages:-抛弃row group,page 大小存储友好-按照page 读

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(徐榜江-湖流一体:基于 Fluss 和 Lance 构建实时多模态数据湖_final.pdf)为本站 (bungbung) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠