张力 Blaze:快手自研Spark向量化引擎从生产实践到社区开源.pdf

编号:178919 PDF 34页 3.12MB 下载积分:VIP专享
下载报告请您先登录!

张力 Blaze:快手自研Spark向量化引擎从生产实践到社区开源.pdf

1、演讲嘉宾:快手数据平台部 张力1大数据引擎向量化的原理、业界发展趋势2向量化在快手Spark引擎上的应用3Blaze引擎社区开源计划和未来目标内容关于向量化的介绍大数据计算引擎中的向量化是一种通过利用计算机硬件的并行处理能力,一次性处理多个数据的计算方法,从而提高计算的速度和效率。这种方法相比传统的逐个循环,可以大幅减少计算时间和资源消耗,并广泛应用于科学计算、机器学习等领域。向量化(Vectorization)是什么?列式存储(Columnar Storage)业界应用:Parquet、ORC等存储格式更高的压缩率更高效读取部分数据更适合向量化计算向量化计算传统数据引擎的计算是基于行的,逐行

2、计算,适合数据量小、计算复杂度低的场景。向量化计算是基于列的,整列加载到内存中进行向量运算,适合数据量大、计算复杂度高的场景。更适配列式存储内存局部性更优(数据局部性、代码局部性)硬件支持(SIMD指令、GPU、DPU)SIMD指令(Single Instruction,Multiple Data)现代CPU普遍支持的一次操作同时计算多条数据的指令,在合适的场景下,计算性能远高于传统的单条数据计算指令。典型的指令集有x86上的sse、avx,ARM上的neon等。向量化在SQL引擎的使用SQL引擎+向量化:数据在SQL算子之间流转的粒度从单条记录(Tuple)改为列存格式的记录批次(Recor

3、d Batch),一个批次可包含数千数万条记录,计算过程充分使用向量化技术。这种方式可以减少算子间调用开销,并使用SIMD加速计算。默认使用向量化计算的SQL引擎:ClickhouseDorisTiDBDuckDBApache Spark 与向量化大数据业内最常用的分布式数据引擎之一,广泛运用于数据清洗、数仓建设、报表分析、机器学习等领域。当前快手数据平台上绝大多数例行作业为Spark SQL作业,每天例行计算数十万个SQL,处理数据量达到EB级别,使用计算资源数百万CU、年化资源开销超亿元。Spark SQL 工作方式:RDDInternalRow为什么要研究Spark+向量化?Spark

4、SQL 于2014年推出,使用行式计算来实现SQL的执行,性能受限,用向量化技术重写Spark执行层可以提升性能、加快计算速度、降低资源开销:行式计算向量化计算数据读写需要行列互转ZeroCopy计算模型火山模型WholeStageCodeGen火山模型SIMD特性难以有效利用SIMD天然支持Native支持-支持硬件支持-GPU、DPU等Spark+向量化在行业内的探索PhotonBMR Spark NativeApache GlutenBlazeApache Comet主导公司Databricks百度IntelKylinFacebook快手Apple立项时间2019-20222022202

5、4技术栈C+C+ClickhouseC+VeloxClickhouseRustDatafusionRustDatafusion开发进度已商业化商业化试用大规模灰度开源大规模灰度开源开源目前业内的Spark+向量化解决方案,主要是将 Spark SQL 经过前端解析之后的执行计划翻译成向量化引擎(如Clickhouse、Apache Datafusion)上功能等价的执行计划,通过这些向量化引擎来完成高性能的向量化计算。以下是业内较知名的已经商业化或开源的解决方案:Blaze引擎Blaze引擎是什么?Blaze=Spark+Native+向量化Blaze是快手自研的基于向量化技术开发的一套Nat

6、ive执行引擎,执行过程充分利用Native代码和SIMD指令向量化计算的优势,实现在用户无感知或少感知的情况下给线上Spark SQL 作业节约平均30%的资源开销。目前Blaze引擎已经在公司Spark引擎上大规模应用,并且在大数据资源成本优化项目起到了重要的作用。简单概括:给Spark装上Blaze引擎,其它不用改,就能大幅提高SQL执行效率。我们为什么要做Blaze引擎?目标=降本增效要求:1.正确:系统必须保证用户计算的作业正确执行,计算结果与原生的Spark一致。2.高效:系统能大幅度提升计算性能,减少资源开销。3.易用:尽可能降低用户切换、上线的成本,最好做到对用户无感知。为什么

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(张力 Blaze:快手自研Spark向量化引擎从生产实践到社区开源.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠