当前位置:首页 > 报告详情

Flink Batch SQL Improvements on Lakehouse.pdf

上传人: 张** 编号:155396 2024-02-15 41页 2.64MB

1、FlinkBatch SQL Improvements on Lakehouse刘大龙/阿里云研发工程师Streaming lakehouse meetupFlink Batch on Paimon 挑战0101CONTENT目录 0202Flink Batch 核心优化0303后续规划01Flink Batch on Paimon 挑战Streaming Warehouse:Flink+PaimonLogsRDBMSFlink Table StoreFlink Table StoreFlink SQLStreaming&BatchFlink SQLStreaming&BatchbinlogD

2、ata ServingSystemsFlink SQLQueriesFlink Table StoreODSDWDDWSADSFlink SQLStreaming&BatchPaimonPaimonPaimonFlink CDC架构简洁语义统一数据一致成本低廉透明开放Flink Batch 挑战Schema 变更行级更新与删除Snapshot 管理时间旅行查询高效 ETL&Ad-hoc02Flink Batch 核心优化Year Recap of Apache Flink BatchFlink 1.16Flink 1.17Flink 1.18SQL GatewayAutomatic Colle

3、ction of StatisticsDynamic Partition PruningJoin HintAdaptive Hash JoinSpeculative ExecutionUpdate&DeleteDPP Strategy OptimizeBushy Join ReorderAdaptive Local HashAggAdaptive Batch SchedulerLakehouse APIsFlink JDBC DriverRuntime FilterOperator Fusion Codegen2022.102023.032023.09Part1:Lakehouse API E

4、nhanceALTER TABLE(FLINK-21634,FLINK-27237)CREATE/REPLACE TABLE AS SELECT(FLIP-218,FLIP-305,FLIP-303)Data Management APICALL Procedure(FLIP-311)Time Travel(FLIP-308)UPDATE/DELETE(FLIP-282)TRUNCATE TABLE(FLIP-302)Data Management APIPart2:Join 优化Statistics EnhanceAnalyze Table(FLIP-240)手动触发,持久化到 Catalo

5、g统计信息丰富rowCountnullCount,ndvmin,maxavgLen,maxLenSupportReportStatistics(FLIP-231)自动收集,不持久化,更实时Flink CSV&Parquet&ORC Format 已支持Paimon 已支持Planner 优先从 Catalog 中获取统计信息,没有则通过 SupportReportStatistics 方式实时获取45Join HintBroadcast Hash JoinBroadcast small table,build hash tableOnly support equi-join4545Shuffl

6、e Hash JoinSort Merge JoinNested Loop JoinBroadcast small table,spill to disk if too largeSupport both equi-join and no-equi-joinShuffle both side by join key and sortOnly support equi-joinShuffle both side by join key,build hash table use small tableOnly support equi-joinJoin Hint没有统计信息,Planner 给出的

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了Flink在湖存储分析场景的优化与发展。Flink Batch SQL在处理大数据量时,面临诸多挑战,如数据一致性、成本低廉、透明开放等问题。为此,Flink团队进行了一系列核心优化,如自动收集统计信息、动态分区裁剪、优化Join算法、自适应调度等。具体来说,Flink提供了Join Hint来优化Join操作,通过动态规划算法优化查询执行计划,以及使用Adaptive Batch Scheduler来自动调整作业并行度,提高资源利用率。同时,Flink也针对稳定性进行了优化,如改进了Adaptive Hash Join算法,减少了数据倾斜问题。在SQL服务化方面,Flink提供了SQL Gateway、SQL CLI等工具,支持多种协议和连接方式。未来,Flink将继续优化现有功能,加强与湖存储生态的对接,聚焦解决用户问题,提升引擎性能。
"Flink Batch SQL 优化细节" "湖存储生态对接与Flink Batch挑战" "Flink Batch未来规划与实践应用"
客服
商务合作
小程序
服务号
折叠