《Apache Hudi 在快手AI、BI场景的数据湖实践》.pdf

编号:624433 PDF 47页 6.38MB 下载积分:VIP专享
下载报告请您先登录!

《Apache Hudi 在快手AI、BI场景的数据湖实践》.pdf

1、Apache Hudi 在快AI、BI场景的数据湖实践2025.03.29 北京快元中钟靓快数据架构研发专家喻兆靖快数据架构研发专家当前快数据湖的态AIBI应背景应场景架构演进应用场景技术演进社区贡献1.BI 场景2.AI 场景3.未来展望BI 应场景ODS Hudi 的应场景 ODS 层更新流湖&志流湖 中间层宽表拼接&增量更新BI 应场景:更新流湖 更新流湖单份存储,成本下降 60%就绪时间 3h-10minBI 应场景:志流湖 志流湖持动态分区和数据去重01分区数据量动态 shuffle02湖任务时效性提升 2h03BI 应场景:宽表拼接 宽表拼接 提模型复度 降低找数成本 分批就绪,加

2、速核指标产出时间应背景应场景架构演进应场景技术演进社区贡献1.BI 场景2.AI 场景3.未来展望BI 技术演进 演进向Sort Merge Compaction、细化锁粒度宽表拼接、实时湖阻塞并发、可扩展索引BI 技术演进:阻塞并发(NBCC)背景补数和线上任务不能并发运维难02接难任务依赖太多,搭建链路复杂01多流拼接、流批统法持并发难03BI 技术演进:阻塞并发(NBCC)历史设计的局限线性依赖阻塞问题时间戳成BI 技术演进:阻塞并发(NBCC)全局时间戳单调递增 时间单调性保障:通过两种式实现全局时间戳单调递增 全局锁+时钟偏移等待(当前实现式)全局时间同步服务(如 Google Sp

3、anner)BI 技术演进:阻塞并发(NBCC)基于双时间区间的存储布局 Requested Time:事务发起的时间 Completion Time:事务实际完成的时间(全局单调递增)BI 技术演进:阻塞并发(NBCC)基于 Completion Time 的件切规则BI 技术演进:阻塞并发(NBCC)收益写链路和 compaction 之间不再有强依赖,宽表依赖减少 70%,补数时间提前 3h+1持实时与实时,实时与离线的并发写2避免因为依赖问题导致的数据致性问题3技术演进:Sort Merge Compaction 背景 资源消耗 稳定性较差,受流量波动影响,超过阈值耗时会不可控技术演进

4、:Sort Merge Compaction 实现案基于有序的 Base 和 Log 进 Sort Merge 合并03Base 件读取排序02Log 件读取排序01技术演进:Sort Merge Compaction 收益 产性能:内存使降低 40%,整体合并性能提升 20%。查询性能:主键有序,基于主键过滤的查询性能提升 200%+稳定性:合并任务稳定性不再受写流量影响,合并任务时间波动从 10 倍降低到 20%以内合并策略合并策略Executor 配置配置合并耗时合并耗时内存占用内存占用CPU 占用占用对照组Hash Compaction8G/5 Core57mins255G128C实验

5、组Sort Merge Compaction3G/5 Core46mins149GB149C技术演进:Extensible Bucket Index 背景 预估初始 Bucket 不准 数据量持续增 业务场景变更技术演进:Extensible Bucket Index 技术演进 Simple Bucket=Partition Bucket=Extensible Bucket技术演进:Extensible Bucket Index 对 Consistent bucket indexConsistent bucket indexExtensible bucket index应背景应场景架构演进应场

6、景技术演进社区贡献1.BI 场景2.AI 场景3.未来展望社区贡献Features that we are contributing/have contributed to CommunityNew featuresImprovementsSort MergeCompactionExtensibleBucket IndexFlink SQLSchemaEvolutionPerformance(9)Usability(14)Bug fix(17)Support Sort Merge Join Compaction:HUDI-8084Introduce extensible bucket layo

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(《Apache Hudi 在快手AI、BI场景的数据湖实践》.pdf)为本站 (Flechazo) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠