我看分布式系统发展和阿里实践(1)(32页).pdf

编号:91343 PDF 32页 3.51MB 下载积分:VIP专享
下载报告请您先登录!

我看分布式系统发展和阿里实践(1)(32页).pdf

1、我看分布式系统架构设计和阿里实践林伟阿里云大数据计算平台资深架构师自我介绍 2002-2005:CPU设计和操作系统 2005-2009:分布式协议开发,存储系统的开发 2009-2015:Bing&Cosmos&Scope 2015-至今:阿里巴巴计算平台分布式系统发展并行单元互联晶体管导线运算单元集成电路多Core高速总线多CPU订制网络多机商用网络分布式系统设计中的变与不变 资源特性 二八原则 系统繁简变换 一致性协议 MaxCompute大数据计算服务(MaxCompute)是一种快速、完全托管的PB/EB级数据仓库解决方案。具备万台服务器扩展能力和跨地域容灾能力,是阿里巴巴内部核心大

2、数据平台,支撑每日百万级作业规模。MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。MaxCompute性能1M+日任务40000+机器单机群上万EB存储8000+开发者2XHadoop性能1/3$Amazon EMR1M+表1500+项目377s100TB sortMaxCompute架构盘古(分布式存储系统)伏羲(分布式调度系统)MaxCompute Engine流计算图计算Batch内存计算机器学习MaxCompute LanguageSpark APIBeam APIHive API应

3、用生态不变:资源特点的相对关系高性能低性能低成本大容量高延时高成本小容量低延时变的:各资源绝对性能,种类MaxCompute:如何处理多种资源特性上到达最佳性能cacheSSDSATA(多副本)SATA Erasure Encoding(1.5X)热冷MaxCompute:Reshuffle中容错和性能的矛盾Reshuffle数据需要落盘,因为Resuffle把多个机器联系起来,出错概率大大增加但是落盘大大降低了系统的性能,但是如果只是简单用network的方式来Shuffle数据,则不能容错CCPPPMaxCompute:容错和性能平衡 采用Network-Disk的可自适应性的channe

4、l来进行Data-ShufflePCWriteRead保存在内存中保存在盘古中不变:应用中的二八法则80%的访问集中于20%数据20%的MaxCompute的项目贡献80%的任务20%的任务占用80%系统资源80%的新数据访问发生在最近20%的时间段中变:二八指代的对象,程度随业务不同而不同 流计算用户80%对latency更为看重 批处理用户80%对throughput更为看重 我们BI系统希望服务好高频的20%的数据,使得80%的访问都达到毫秒级 MaxCompute API取舍(二八法则)80%数据工程师 关心数据本身特性,数据分析需要做什么 如何高效做由MaxCompute来选择 SQ

5、L+UDF:Declare Language20%具有分布式开发经验程序员 希望精确控制分布式程序的执行 能够比系统生成出更加高性能分布式执行计划 Lambda+SQL算子:函数式程序语言MaxCompute API层次SQL+UDF pluginMax用户Non-SQL的扩展由UDF API定义能够让用户对其UDF规范和描述,说明从外看起UDF的数据运算属性使得系统优化能够穿透Non-SQL的部分,从而到达更好的执行plan使得用户能够专注于其数据逻辑,系统进行全局优化来生成最优执行对系统优化器要求更高Non-SQL的driver+SQL算子用户Non-SQL的部分由外部driver提供具有

6、普世性数据运算通过在API实现的关系代数数据算子来提供数据处理优化器局限于SQL关系代数算子之间,碎片化优化用户需要更多考虑数据加工的分布式过程能够更加灵活,给用户更多选择去精确控制分布式运算MaxComputeSpark系统设计繁简以及之间变化简明设计API简约性能次用户易用维护性强系统Scale对系统优化要求高复杂设计API复杂性能优用户理解复杂维护性差系统难以scale对用户的要求高新业务,新需求,新问题系统软件成熟,更加优化两种思路正在融合 Spark:Scala-DataFrame,扩大关系代数程序范围,从而系统能够有更大的空间进行优化 Max

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(我看分布式系统发展和阿里实践(1)(32页).pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠