4王泽宇-DataFun PPT (4).pdf

编号:991600 PDF 35页 64.58MB 下载积分:VIP专享
下载报告请您先登录!

4王泽宇-DataFun PPT (4).pdf

1、演讲嘉宾:王泽宇 快手快手实时入湖如何助力快手实时入湖如何助力BI&AI场景架构升级场景架构升级1快手牵手hudi2hudi在快手的实践2.1BI传统数仓架构升级2.2AI存储架构升级2.3快手数据湖核心技术优化3未来展望 1 快手牵手hudi历史痛点BIAIhudi助力快手AI&BI快手和快手和hudihudi社区合作社区合作 Features that we are contributing/have contributed to Community Features that we are contributing/have contributed to CommunityNew fea

2、turesNew featuresImprovementsImprovementsSortSort MergeMerge CompactionCompactionExtensibleExtensible BucketBucket IndexIndexFlinkFlink SQLSQLSchemaSchema EvolutionEvolutionPerformancePerformanceUsabilityUsabilityBug fixBug fixSupport Sort Merge Join Compaction:HUDI-8084Introduce extensible bucket l

3、ayout:HUDI-9202Support schema evolution by Flink SQL using HoodieCatalog:HUDI-7270HUDI-9451HUDI-9302HUDI-9330HUDI-9205HUDI-9268HUDI-9152HUDI-8800HUDI-8787HUDI-9166HUDI-8214HUDI-8007HUDI-8215HUDI-6330HUDI-7962HUDI-9329HUDI-8902HUDI-8794HUDI-8590HUDI-8622HUDI-8565贡献大量特性,性能优化,修复PR举办了第一届hudi社区亚洲沙龙 2 hud

4、ihudi在快手的实践在快手的实践2.1BI传统数仓架构升级助力BI传统数仓-ODS 入湖架构演进 降低存储成本 提升数据产出时效 支持更丰富的查询模式助力BI传统数仓架构升级-Mysql2hive 存储格式:一张 Hive 小时表存储增量数据、一张 Hive 天级表存储全量数据 实时任务:实时写入到小时级增量Hive 表中 离线任务:每天读取全量表 T-2 和增量表 T-1 的数据去重合并后写到全量表 T-1 分区助力BI传统数仓架构升级-Mysql2hudi 1.0 存储格式:采用一张 Hudi 非分区表 实时任务:实时任务按照 CP间隔写入和提交到 Hudi 中 离线任务:按照时间 n

5、天一次或者按照增量数据大小触发一次离线合并助力BI传统数仓架构升级-Mysql2hudi 1.0助力BI传统数仓架构升级-Mysql2hudi 2.0 存储格式:采用一张 Hudi 小时级日期分区表 实时任务:实时任务按照数据时间写入到对应分区 离线任务:表管理与表优化服务分区表天然支持长生命周期和增量查询!丰富表服务管理数据分布与优化出湖效率!助力BI传统数仓架构升级-Full Compact 目的:降低读取时合并的增量数据量 触发阈值:基于增量数据大小或时间 流程:读取最近的全量+之后的增量分区,写入到一个新的全量分区助力BI传统数仓架构升级-Minor Compact 目的:降低读取时合

6、并的增量数据量,降低分区内小文件数 触发阈值:基于增量数据大小 流程:读取一个增量分区内的提交文件,将数据写入到该分区一个新文件中,标记老文件被replaced助力BI传统数仓架构升级-分桶异构 全量分区与增量分区支持不同桶数 对于全量大但增量数据小的表可大大减少入湖资源以及小文件数助力BI传统数仓架构升级-一份存储多种模式读取 全量分区映射表 增量分区映射表 全量快照映射表助力BI传统数仓架构升级-Mysql2hudi 1.0-2.0助力BI传统数仓架构升级-Mysql2hive-Mysql2hudi 2.0线上收益:1.天级就绪提前 35h2.资源成本节省5060%助力BI传统数仓架构升级

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(4王泽宇-DataFun PPT (4).pdf)为本站 (可不可以) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠