当前位置:首页 > 报告详情

Apache Celeborn|让 Spark 和 Flink 更快更稳更弹性.pdf

上传人: 张** 编号:155417 2024-02-15 29页 5.60MB

1、Spark/Flink+Celeborn:更快,更稳,更弹性周克勇(一锤)阿里云/数据湖Spark引擎负责人Streaming lakehouse meetup快0101CONTENT0202稳0303弹0404Evaluation背景00004545背景介绍传统ShuffleCeleborn简介4545传统Shuffle的问题最重要的算子15%资源消耗不够稳定Fetch FailureOOM不够高效高网络连接随机磁盘IOIO放大无法存算分离依赖大容量本地盘Apache Celeborn(Incubating)4545统一中间数据服务Shuffle+Spill Data引擎无关https:/

2、1100+Commits 47 Contributors,15 Committers 480+Stars用户反馈4545快核心设计列式Shuffle向量化引擎多层存储核心设计:Push/聚合/Split存算分离写放大磁盘随机小IO网络高连接小IO核心设计:异步异步推送异步刷盘异步Commit异步Fetch列式Shuffle行列转换代码生成Shuffle Size减少40%对接向量化引擎社区合作:Gluten+Celeborn优化正交HDD环境性能提升8%-12%多层存储内存/本地盘/HDFS/OSS灵活配置快存储优先4545稳容错快速滚动升级Traffic Control负载均衡容错两副本Re

3、vive机制磁盘防爆Worker自检集群健康检测RPC重试ReviveBatch Revive快速滚动升级向前兼容快速优雅重启Traffic Control反压拥塞控制Credit Based负载均衡隔离坏盘分配给快/大盘45弹Spark/Celeborn on K8s典型场景完全混部Celeborn独立部署存算分离Spark/Celeborn on K8s4545Evaluation稳定性滚动重启性能弹性稳定性:Spark大作业Spark on Yarn+Celeborn混部1000+Workerx PB每天稳定性:Flink大作业Spark/Celeborn On K8s混部500+Worker单Shuffle 680+T滚动重启21:19:44Shutdown信号21:19:53完成下线并退出21:20:01完成重启和注册生产:1000+Worker,10批,2min每批作业无感性能Shuffle 1.1/2.2/3.3 T数据性能10T TPCDS,20%提升弹性存算分离100+Worker数万pods加入我们GitHub https:/ Celeborn孵化ThanksStreaming lakehouse meetup

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了阿里云数据湖Spark引擎负责人周克勇在Streaming lakehouse meetup上分享的关于Spark/Flink与Celeborn结合的使用体验。Celeborn是一个统一的中间数据服务,旨在解决传统Shuffle在资源消耗、稳定性、弹性等方面的问题。其核心设计包括列式Shuffle、向量化引擎、多层存储和异步操作,能有效减少Shuffle数据大小,优化存储和网络性能。Celeborn在稳定性、滚动重启性能和弹性方面表现出色,能够支持大规模作业的快速滚动升级和重启,实现存算分离,提升作业性能。目前,Celeborn已在社区取得积极反馈,与Gluten等向量化引擎实现对接。感兴趣的读者可以通过GitHub、钉钉群和微信公众号了解更多信息并加入社区。
"Celeborn如何提升Spark/Flink性能?" "如何实现Spark/Celeborn在K8s上的弹性部署?" "Celeborn如何确保大数据作业的稳定性和可靠性?"
客服
商务合作
小程序
服务号
折叠