《4王泽宇-DataFun PPT (4).pdf》由会员分享,可在线阅读,更多相关《4王泽宇-DataFun PPT (4).pdf(35页珍藏版)》请在三个皮匠报告上搜索。
1、演讲嘉宾:王泽宇 快手快手实时入湖如何助力快手实时入湖如何助力BI&AI场景架构升级场景架构升级1快手牵手hudi2hudi在快手的实践2.1BI传统数仓架构升级2.2AI存储架构升级2.3快手数据湖核心技术优化3未来展望 1 快手牵手hudi历史痛点BIAIhudi助力快手AI&BI快手和快手和hudihudi社区合作社区合作 Features that we are contributing/have contributed to Community Features that we are contributing/have contributed to CommunityNew fea
2、turesNew featuresImprovementsImprovementsSortSort MergeMerge CompactionCompactionExtensibleExtensible BucketBucket IndexIndexFlinkFlink SQLSQLSchemaSchema EvolutionEvolutionPerformancePerformanceUsabilityUsabilityBug fixBug fixSupport Sort Merge Join Compaction:HUDI-8084Introduce extensible bucket l
3、ayout:HUDI-9202Support schema evolution by Flink SQL using HoodieCatalog:HUDI-7270HUDI-9451HUDI-9302HUDI-9330HUDI-9205HUDI-9268HUDI-9152HUDI-8800HUDI-8787HUDI-9166HUDI-8214HUDI-8007HUDI-8215HUDI-6330HUDI-7962HUDI-9329HUDI-8902HUDI-8794HUDI-8590HUDI-8622HUDI-8565贡献大量特性,性能优化,修复PR举办了第一届hudi社区亚洲沙龙 2 hud
4、ihudi在快手的实践在快手的实践2.1BI传统数仓架构升级助力BI传统数仓-ODS 入湖架构演进 降低存储成本 提升数据产出时效 支持更丰富的查询模式助力BI传统数仓架构升级-Mysql2hive 存储格式:一张 Hive 小时表存储增量数据、一张 Hive 天级表存储全量数据 实时任务:实时写入到小时级增量Hive 表中 离线任务:每天读取全量表 T-2 和增量表 T-1 的数据去重合并后写到全量表 T-1 分区助力BI传统数仓架构升级-Mysql2hudi 1.0 存储格式:采用一张 Hudi 非分区表 实时任务:实时任务按照 CP间隔写入和提交到 Hudi 中 离线任务:按照时间 n
5、天一次或者按照增量数据大小触发一次离线合并助力BI传统数仓架构升级-Mysql2hudi 1.0助力BI传统数仓架构升级-Mysql2hudi 2.0 存储格式:采用一张 Hudi 小时级日期分区表 实时任务:实时任务按照数据时间写入到对应分区 离线任务:表管理与表优化服务分区表天然支持长生命周期和增量查询!丰富表服务管理数据分布与优化出湖效率!助力BI传统数仓架构升级-Full Compact 目的:降低读取时合并的增量数据量 触发阈值:基于增量数据大小或时间 流程:读取最近的全量+之后的增量分区,写入到一个新的全量分区助力BI传统数仓架构升级-Minor Compact 目的:降低读取时合
6、并的增量数据量,降低分区内小文件数 触发阈值:基于增量数据大小 流程:读取一个增量分区内的提交文件,将数据写入到该分区一个新文件中,标记老文件被replaced助力BI传统数仓架构升级-分桶异构 全量分区与增量分区支持不同桶数 对于全量大但增量数据小的表可大大减少入湖资源以及小文件数助力BI传统数仓架构升级-一份存储多种模式读取 全量分区映射表 增量分区映射表 全量快照映射表助力BI传统数仓架构升级-Mysql2hudi 1.0-2.0助力BI传统数仓架构升级-Mysql2hive-Mysql2hudi 2.0线上收益:1.天级就绪提前 35h2.资源成本节省5060%助力BI传统数仓架构升级