当前位置:首页 > 报告详情

Apache Paimon 实时数据湖|Streaming Lakehouse 的存储底座.pdf

上传人: 张** 编号:155304 2024-02-15 25页 4.25MB

1、Apache Paimon 实时数据湖Streaming Lakehouse 的存储底座李劲松/阿里云开源大数据表存储团队负责人Streaming lakehouse meetup关于演讲者l 2015年毕业于电科技学,并职阿云从事上代流计算平台 Galaxy 研发l 相继从事 流计算、批计算、湖存储,并成为 Apache Flink PMC 成员,Apache Beam&Iceberg Committerl 前是阿云级技术专家,开源数据表存储团队负责,负责 Apache Paimon 的研发和产品,专注流式湖仓技术与产品流计算邂逅数据湖0101CONTENT目录 0202Paimon CDC

2、 实时入湖0303Paimon 不止 CDC 入湖0404总结与生态01流计算邂逅数据湖流计算 1.0 实时预处理查询超快:向业务在线查询灵活度低:向业务定制化开发定制化灵活性低,查询模式受限流计算 2.0 实时数仓存储成本,只能保存较珍贵的数据查询较快:向量化计算 SSD存储灵活度中:存储 Schema 化,SQL 查询流计算 3.0 实时湖仓实时湖仓挑战:CDC 湖查询较慢:批查询,可通过 DataSkipping 加速查询灵活度:存储 Schema 化全量数据,通 SQL 查询Apache Paimon is a streaming data lake platform that sup

3、ports high-speed data ingestion,change data trackingand efficient real-time analytics.Apache Paimon:一个专门为 CDC 处理、流计算而生的数据湖。希望带来你舒服、自动的湖上流处理体验。02Paimon CDC 实时入湖传统 Hive CDC 仓实时数据湖:按主键更新全量表与增量表存储成本和计算成本都很延时,T+1+合并时延Paimon CDC 湖全流程表三延时低:实时查询、离线查询、增量查询一键 CDC 湖:最简单的同步性能湖:计算成本低低成本存储:基于 LSM 复件Paimon CDC 简单的

4、数据集成Data Lake(HDFS/OSS/S3)01010101010101Schema Evolution宽表合并Sync MetaMetaFlink CDC整库同步Changelog Data批写Data键湖:数据+Schema 变更整库同步:个作业搞定切 MySql 单表同步 MySql 整库同步 Kafka 单表同步 Kafka 整库同步 RichCdcRecord 编程同步Paimon 性能湖调优指南Paimon 提供灵活的参数让你在 写性能、查询性能、存储空间 权衡Paimon Tag 实时离线融合Snapshots:流不断产新的 SnapshotTags:Tag 是离线的视图

5、配置每天0点10分钟创建个 Tag,最保留3个的 Tag,Flink 流式写,动创建 Tags,动清理 Tags表三:查询最新数据 查询 Tag 的历史数据 查询增量数据Paimon LSM 件存储的复基于 LSM 复件多个 Tags 之前最层可能完全样,件全复!(调整 Levels 参数来达到更的复)03Paimon 不止 CDC 入湖Paimon 重进展Paimon Streaming LakeSparkStarRocksDorisPrestoSQL超83位贡献者繁荣的态各场景全可MaxComputePartial-UpdateSequence GroupFirst RowMerge En

6、gineLookup Changelog-Producer合并元数据HivePartitioned TableManifestFull CompactionStatisticsMode动态 BucketAppend 离线表Tag内核Flink CDC 同步Kafka 同步CombinedSink湖态跨分区更新Paimon 数据打宽 Flink Lookup Join Partial Update(Sequence-Group)Flink 双流 Join成本维表法更新外键打宽?To Be Continue Paimo

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
Apache Paimon 是一个流式数据湖平台,支持高速数据摄取、变更数据追踪和高效实时分析。以下是全文的核心内容概括: 1. **Apache Paimon 简介**:Paimon 专为变更数据捕获(CDC)处理和流计算设计,提供实时数据湖解决方案。 2. **流计算与数据湖的演进**:从流计算1.0到3.0,实现了实时预处理、实时数仓、实时湖仓的转变,提高了查询速度和灵活性,并降低了存储成本。 3. **Paimon CDC 实时入湖**:Paimon 通过优化CDC入湖,实现了一键高效入湖,并支持多种数据源和存储后端,如HDFS、OSS、S3。 4. **Paimon 的高级功能**:包括宽表合并、Schema Evolution、LSM文件存储复用、流式和批式读写支持,以及ACID特性。 5. **Paimon 的生态与集成**:Paimon 与Flink、Spark、StarRocks、Doris、Presto等引擎深度集成,支持统一的数据湖存储、管理和格式。 6. **总结**:Paimon 已基本成熟,是流式数据湖的优选方案,具备统一的数据湖存储、管理和格式,支持全引擎查询。 7. **社区与支持**:鼓励关注Apache Paimon的微信公众号和加入钉钉群,以获取行业实践支持和实时技术讨论。 通过以上关键点,我们可以看出Apache Paimon在实时数据湖解决方案方面的领先地位和全面功能。
"Apache Paimon如何实现实时数据湖存储?" "Paimon CDC实时入湖有哪些优势和特点?" "Paimon在流计算新时代有哪些应用场景和潜力?"
客服
商务合作
小程序
服务号
折叠