报告预览

FFA2024分论坛-流式湖仓.pdf

编号：184575

PDF 337页 71.10MB 下载积分：VIP专享

下载报告请您先登录！

FFA2024分论坛-流式湖仓.pdf

1、Paimon 1.0:Unified Lake Format for Data+AI李劲松(之信)阿里云智能开源湖存储负责人数据湖解决的问题流批一体的演进AI 方向的探索数据湖解决的问题2大数据框架百花齐放，数据链路多，搬移频繁，开发难，维护繁杂，资源成本也高如何在降本的大环境下让数据变得更实时，让业务获得实时数据来驱动业务决策13最近生成式人工智能太火了，大数据如何和 AI 产生点关系，如何融入 AI 基础设施来自大数据从业者的灵魂三问问题一：降本与实时兼得+流式湖仓Flink+Paimon 实现低成本离线数据加速整体成本下降 50%湖存储替消息队列状态计算融入存储代价：时效一分钟问题

2、二：框架存储多难维护统一存储Paimon 面向流、批、OLAP 构建流批一体架构Apache Paimon 流批 OLAP 一体化共享存储计算平权口径一致开发简单问题三：大数据赋能 AIAI数据湖+AI开放生态提供 Python API 与 Object Table 等特性Object Table Python 解锁 AI 生态对象表非结构化处理流批一体架构的演进流批割裂架构流批割裂开发成本批批批ApplicationDatabase流流流OLAPODSDWDDWS离线数仓：Spark 批读批写 Hive 表实时数仓：Flink 流读流写 Kafka+KV/OLAP统一流批计算统一

3、计算SQL 编译统一计算引擎统一口径一致存储不统一表存储与 KafkaApplicationDatabase批批批流流流OLAP离线数仓：Flink 或 Spark 批读批写 Hive 表实时数仓：Flink 流读流写 Kafka+KV/OLAPODSDWDDWSODS 实时入湖批链路时效性提升 ODS 数据实时可查 ODS 存储成本降低ApplicationDatabase批批流流OLAP离线数仓：Flink 或 Spark 批读批写 Hive 表实时数仓：Flink 流读流写 Kafka+KV/OLAPUnified ODSDWDDWS流ODS 分区标 Done当 ODS 层流式改造

4、之后，那什么时候开始调度批任务：当此分区结束后15分内没有新数据到达时流作业自动生成 Done 分区标识到元数据中CREATE TABLE my_partitioned_table（f0 INT,f1 INT,f2 INT,dt STRING）PARTITIONED BY（dt）WITH（partition.timestamp-formatter=yyyyMMdd，partition.timestamp-pattern=$dt，partition.time-interval=1 d，partition.idle-time-to-done=15 m，partition.mark-done-act

5、ion=done-partition）；流式湖仓存储成本降低计算成本降低全表实时可查流读全量数据ApplicationDatabase批批流流离线数仓：Flink 或 Spark 批读批写 Hive 表流式湖仓：Flink 流读流写 PaimonUnified ODSDWDDWS流流式湖仓下还需要批链路吗？批计算的正确性批计算产出严格正确，但是流计算一般没有那么准确批计算的严肃性批计算要求可重入，输入不变，重复计算，数据不可变Branch：融合批和流的数据批的世界流的世界dt=11-20dt=11-21dt=11-22dt=11-23新增数据中dt=11-21dt=11-20dt=11

6、-22数据分析师主分支流分支Fallback流批一体 2.0：统一存储流流/批UnifiedDWDUnifiedDWS批分支流分支流/批批分支流分支默认读批分支回退到流分支批分支真理源流批融合隔离UnifiedODS流批一体湖仓：Flink 流批一体读写 PaimonSpark 批读批写 PaimonApplicationDatabase淘天流批一体的实践流量表产出时效提前40-60分钟流批一体开发和运维效率提升50%以上中间层实时数据可见，业务BI OLAP分析中间层去重降低下游重复消费和去重成本Paimon 存储使用HDFS，成本下降CDM层存储统一OLAP引擎数据产品数据服务商业

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（FFA2024分论坛-流式湖仓.pdf）为本站（可不可以）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。