Apache Paimon 实时数据湖｜Streaming Lakehouse 的存储底座.pdf-三个皮匠报告

1、Apache Paimon 实时数据湖Streaming Lakehouse 的存储底座李劲松/阿里云开源大数据表存储团队负责人Streaming lakehouse meetup关于演讲者l 2015年毕业于电科技学，并职阿云从事上代流计算平台 Galaxy 研发l 相继从事流计算、批计算、湖存储，并成为 Apache Flink PMC 成员，Apache Beam&Iceberg Committerl 前是阿云级技术专家，开源数据表存储团队负责，负责 Apache Paimon 的研发和产品，专注流式湖仓技术与产品流计算邂逅数据湖0101CONTENT目录 0202Paimon CDC

2、实时入湖0303Paimon 不止 CDC 入湖0404总结与生态01流计算邂逅数据湖流计算 1.0 实时预处理查询超快：向业务在线查询灵活度低：向业务定制化开发定制化灵活性低，查询模式受限流计算 2.0 实时数仓存储成本，只能保存较珍贵的数据查询较快：向量化计算 SSD存储灵活度中：存储 Schema 化，SQL 查询流计算 3.0 实时湖仓实时湖仓挑战：CDC 湖查询较慢：批查询，可通过 DataSkipping 加速查询灵活度：存储 Schema 化全量数据，通 SQL 查询Apache Paimon is a streaming data lake platform that sup

3、ports high-speed data ingestion,change data trackingand efficient real-time analytics.Apache Paimon：一个专门为 CDC 处理、流计算而生的数据湖。希望带来你舒服、自动的湖上流处理体验。02Paimon CDC 实时入湖传统 Hive CDC 仓实时数据湖：按主键更新全量表与增量表存储成本和计算成本都很延时，T+1+合并时延Paimon CDC 湖全流程表三延时低：实时查询、离线查询、增量查询一键 CDC 湖：最简单的同步性能湖：计算成本低低成本存储：基于 LSM 复件Paimon CDC 简单的

4、数据集成Data Lake(HDFS/OSS/S3)01010101010101Schema Evolution宽表合并Sync MetaMetaFlink CDC整库同步Changelog Data批写Data键湖：数据+Schema 变更整库同步：个作业搞定切 MySql 单表同步 MySql 整库同步 Kafka 单表同步 Kafka 整库同步 RichCdcRecord 编程同步Paimon 性能湖调优指南Paimon 提供灵活的参数让你在写性能、查询性能、存储空间权衡Paimon Tag 实时离线融合Snapshots：流不断产新的 SnapshotTags：Tag 是离线的视图

5、配置每天0点10分钟创建个 Tag，最保留3个的 Tag，Flink 流式写，动创建 Tags，动清理 Tags表三：查询最新数据查询 Tag 的历史数据查询增量数据Paimon LSM 件存储的复基于 LSM 复件多个 Tags 之前最层可能完全样，件全复！(调整 Levels 参数来达到更的复)03Paimon 不止 CDC 入湖Paimon 重进展Paimon Streaming LakeSparkStarRocksDorisPrestoSQL超83位贡献者繁荣的态各场景全可MaxComputePartial-UpdateSequence GroupFirst RowMerge En

6、gineLookup Changelog-Producer合并元数据HivePartitioned TableManifestFull CompactionStatisticsMode动态 BucketAppend 离线表Tag内核Flink CDC 同步Kafka 同步CombinedSink湖态跨分区更新Paimon 数据打宽 Flink Lookup Join Partial Update(Sequence-Group)Flink 双流 Join成本维表法更新外键打宽？To Be Continue Paimo

Apache Paimon 实时数据湖｜Streaming Lakehouse 的存储底座.pdf

相关报告