《A2--喻望--快手全场景混部隔离技术实践.pdf》由会员分享,可在线阅读,更多相关《A2--喻望--快手全场景混部隔离技术实践.pdf(48页珍藏版)》请在三个皮匠报告上搜索。
1、快手全场景混部隔离技术实践喻望 快手,操作系统负责人喻望快手基础平台,操作系统团队负责人先后在华为、腾讯、阿里&蚂蚁集团、快手工作,拥有十五年操作系统研发和稳定性工作。2022年加入快手,负责快手基础平台操作系统团队,带领团队完成大规模CPU混部、GPU虚拟化、国产自研OS替代、内存优化等多个重大专项,通过极致的底层技术创新,帮助公司获得每年十亿级的成本降低。本次将分享快手在CPU混部这个老话题下,新的技术突破,如何解决业界在搜广推场景未规模化落地的问题。010203快手混部发展历程核心技术揭秘下一步技术发展快手混部发展历程混部背景为什么要做混部?-成本:降本增效-架构:资源池统一管核心挑战:
2、需控制好混部对在线业务(稳定性)干扰挑战1:内核管理的资源多、共享多;难控制挑战2:利用率不断提升(20-50-70%);干扰加剧挑战3:硬件高密众核(256-384-1xxx核);干扰加剧挑战4:非技术问题,敏感业务对稳定性的担忧;无法说服业务混部业界混部隔离技术业界主流内核隔离技术控制干扰Google Borg、国内阿为代表的内核隔离技术在内核层实现CPU、内存、IO、络资源隔离,对上层透明感,被泛应于互联,均利率可从20%-30%提升到40%-50%,特别厉害的可以到60%。未解决的事业搜推极度敏感业务未真正拿下(延时劣化15%+)阿里内核隔离技术大图快手混部隔离技术路线上线破十万 日均
3、利用率提升2倍+预研高敏感业务隔离技术(快手独有)搜广推灰度试点 SLA观测系统 混部干扰分析工具完善 内核隔离技术新突破 QoS管控联动治理上线破万 解决稳定性和隔离问题内核隔离首个版本发布 覆盖4大子系统、16个自研隔离能力 离线Kata虚拟化隔离规模化搜广推混部千万核量级利用率行业TOP级,且规模覆盖搜广推类极度敏感核心武器库:-可观测-干扰分析-内核隔离-QoS管控兜底核心技术揭秘搜广推业务方达成SLA协议非常重要的第一步,需要和业务方达成合约共识:延时劣化(分钟级)x%、日均延时劣化xx%运维工作量上涨x个/月核心技术一:可观测技术,使命和难点使命:如何精准、实时性 量化混部导致的业
4、务核心指标劣化程度 内部不接受实验集群压测 就上线(缺乏线上运行数据)难点:线上业务指标本身波动性大 离线的劣化奉献如何单独计算核心技术一:可观测技术,方案整体向:通过AB对(AZ间)量化混部带来的劣化程度-优点:可解释性强(复杂推理模型)、精准度较、实时性强-缺点:保留对照组资源(AZ)不混部核心技术一:可观测技术,实现细节(对比挑选)流量挑选策略:-挑选流量相近AZ做AB(绝对值和变化趋势相近),消除流量差异的影响-分钟级AB覆盖率从10%(随机挑选AZ)提升到60%消除环境差异(机房络时延、机型等)-未混部时段窗,量化实验组与对照组AZ间业务指标的固有差异核心技术一:可观测技术,实现细节
5、(扩大覆盖)动决策检测窗:-分钟级波动较,则降级时级检测,实现AB对全覆盖-如右图:量化不同检测窗下,AZ间差异的波动性,1时的检测窗,延迟劣化量化较稳定(波动性于3%)采取中位数平滑机制-减少因少数实例指标异常抖动带来的扰核心技术一:可观测技术,实现细节(降噪)感知服务变更:如发布、重启,减少业务因素带来的扰;实践中约70%判定为严重扰(延迟劣化超过10%,可性下降)的案例为业务发布变更导致,如下图所示:混部AZ进版本发布时,延迟抖动较结合系统指标:提升混部判定置信度核心技术一:可观测技术,效果延时劣化指标可用性劣化指标核心技术二:混部干扰分析工具核心目标:找到干扰源头,供隔离优化/止损业界
6、现状:缺乏一套TopDown 混部干扰分析工具传统TMA问题:横向指标(前/后端、内存/计算)百分比对比,找不到差异点 淹没开销占比小头,无法进行细微劣化分析核心技术二:混部干扰分析工具,方案自研一套Top-down的混部干扰分析工具TopDown:全面正交的On-CPU、Off-CPU指标横向比(各指标百分比)-同比(混部前 vs 混部后 raw event对比)根因下钻:自研BE、NOR、LC调度指标核心技术二:混部干扰分析工具,On-CPU示例无从下手:IPC变化明显,但TMA指标百分比变化不突出清晰找到细粒