当前位置：首页 > 报告详情

5.李呈祥 -Apache Spark最新技术进展和3.0+展望（21页）.pdf

上传人：懒人编号：83829 2022-07-20 PDF PDF 21页 2.02MB

该报告所属合集： 2019年阿里云峰会（上海）开发者大会PPT合集

打包下载报告合集

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载报告到电脑，查找使用更方便

VIP专享文档

书签

分享

收藏

已收藏

版权投诉

/21

立即下载

《5.李呈祥 -Apache Spark最新技术进展和3.0+展望（21页）.pdf》由会员分享，可在线阅读，更多相关《5.李呈祥 -Apache Spark最新技术进展和3.0+展望（21页）.pdf（21页珍藏版）》请在三个皮匠报告上搜索。

1、Apache Spark最新技术进展和3.0+展望李呈祥（司麟）阿里巴巴高级技术专家计算平台事业部Agenda3.0Spark on CloudData Warehouse EnhancementSpark+AIA Unified Analytics Engine for Large-scale Data ProcessingEasy-to-use APIRich Ecosystem SupportEfficient EngineData Warehouse EnhancementDelta Lake ACID Transactions Scalable Metadata Handling T

2、ime Travel(data versioning)Open Format Unified Batch and Streaming Source and Sink Schema EnforcementComing soon:Audit HistoryFull DML SupportExpectationsData Source V2 Unified API for batch and streaming Flexible API for high performance implementation Flexible API for metadata management Target 3.

3、0Runtime OptimizationDynamic optimize the execution plan at runtime based on the statistic of previous stage.Self tuning the number of reducers Adaptive join strategy Automatic skew join handlingAdaptive ExecutionEMR Runtime Filter Filter big table with runtime statistic of join key.Support both par

4、titioned table and normal table.EMR Spark Relational CacheUser may analyze data in certain access patternRegularly join 2 tables?Regularly aggregate by certain fields?Regularly filter by certain fields?Data Organization:partition,bucket,sortfile index,zorderData pre-computation:pre-filterdenormaliza

5、tionpre-aggregationMake data adaptive to compute,so spark compute faster.EMR Spark Relational CacheEMR Spark Relational CacheEasy to build and maintainTransparent to userCREATE VIEW emp_flat AS SELECT*FROM employee,address WHERE e_addrId=a_addrId;CACHE TABLE emp_flatUSING parquetPARTITIONED BY(e_ob_

6、date)EAJFP-User Query-SELECT*FROM employee,address WHERE e_addrId=a_addrId and a_cityName=ShangHaiSpark OptimizerCFPEAJP-Cached Mata-emp_flatoptimized planSpark on CloudStorage and Computing DisaggregationWhy disaggregate storage and computing:Pay as you go.Scale independently of each other.More rel

word格式文档无特别注明外均可编辑修改，预览文件经过压缩，下载原文更清晰！

三个皮匠报告文库所有资源均是客户上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作商用。

Apache Spark技术进展报告聚焦于3.0版本及未来的发展方向。李呈祥（司麟），阿里巴巴高级技术专家，概述了Spark在云计算、数据仓库、AI大规模数据处理等方面的增强。Spark 3.0+将优化执行计划，动态调整reducer数量，采用自适应join策略和处理数据倾斜的优化方法。Delta Lake特性包括ACID事务、可扩展的元数据处理、时间旅行（数据版本控制）、开放格式和支持批处理与流处理源和目标。即将推出的功能包括审计历史、全面DML支持等。Spark优化器将生成优化的执行计划，而JindoFS填补了对象存储与计算框架之间的空白，提供文件系统API和元数据管理。在云计算方面，Spark将支持远程shuffle服务，提高存储和计算的弹性。此外，Spark 3.0+将支持动态资源分配、Kerberos认证，并计划与Hadoop 3.x和Hive 2.3兼容。Scala 2.12也得到全面支持。项目Hydrogen旨在将Spark整合为统一的AI处理管道，通过障碍执行模式和加速器感知调度优化AI作业。Spark ML库通过优化数据交换，支持GPU和其他加速器，如FPGA。这些进展旨在使Spark计算更快，同时降低成本，提高可靠性。

"Spark 3.0+有哪些新技术？" "如何在Spark中实现GPU加速？" "Spark on Cloud有哪些优势？"

全行业研究报告分享下载平台

0731-84720580
商务合作：really158d
友链申请 (QQ)：1737380874

关于我们

更多

关于我们

三个皮匠报告微信公众号

三个皮匠报告微信小程序

扫码咨询网站充值下载问题

友情链接：

营销自动化亿欧智库微播易阿里妈妈

copyright@2008-2013 长沙景略智创信息技术有限公司版权所有网站备案/许可证号：湘B2-20190120 | 工信部备案号：湘ICP备17000430号-2 | 公安备案号：湘公网安备43010402001071号

客服

小程序

服务号

折叠