1、bilibili Finops bilibili Finops 实践分享实践分享毛剑毛剑 bilibili bilibiliPart1基础架构业务SRE基础SREAI+大数据SRESRE体系(流程/作业平台、服务树、资产、SLO、OnCall)大数据体系(离线/实时计算、OLAP、数据湖、AIFlow)DS/分布式存储LB/负载均衡微服务基础平台(CPU/GPU K8S调度、可观测性)SRE大数据中间件基础设施稳定性成本效率IT 预算北极星指标也叫唯一关键指标(OMTM,One metric that matters)基础架构负责公司整个 IT 预算,那么北极星指标即:IT 预算总成本,OKR
2、 我们关注的目标不仅仅也是节省了多少钱,更直接一点一共花多少钱。增效降本的困难 增效 缺乏标准化,运维运营成本高 基础设施不统一,无法全局最优 平台散乱,缺乏应用/用户视角的 all in one 平台 降本 没有成本经营意识,看大数逻辑 公司层面自上而下的战略 没有可执行的技术方案,缺乏全貌视角 成本的运营体系建设,可观测Part2降本增效要做的事流量 数据上报 DCDN 复用视频云 CDN 资源,上下行带宽复用 API DCDN 复用视频云 CDN 资源 PCDN/MCDN 平台建设和资源运营 SLB 容器化弹性伸缩,解决突发/峰值流量常备 SLB 资源池 直播弹幕公有云通过边缘计算使用复
3、用自建 IDC 资源 HTTP DNS 解析成本优化降本增效要做的事对象存储 进一步推进新的图片编码格式:avif 建立热点文件运营体系,通过预分资源(大型活动中高频访问的图片)MySQL 容器化改造,支持 VPA(非 Online,主从切换轮转)数据 TTL 运营 从库降副本,从4副本-2副本(核心业务3副本)同时使用物理备份降低从库压力 大数据数据集成任务全部切换为增量数仓降本增效要做的事Redis 容器化改造,支持 VPA 混合调度到 Caster 内存富余实例 SRE 配合业务,资源运营优化降本增效要做的事大数据计算 计算引擎切换:Hive-Spark 一期:Yarn on K8S(复
4、用视频云/在线/实时资源)+Yarn 合并资源池,二期:Spark on K8S,Flink on K8S Lancer 传输体系性能优化 Flink 支持 VPA Flink 增量数仓降本增效要做的事大数据存储 HDFS EC,Online、Nearline、Coldline、Archive Textfile 表存储优化,zstd 压缩 日志从 ES-Clickhouse 引擎 主动数据治理&埋点治理降本增效要做的事GPU 业务合理性,广告 mpi CPU 集群迁移到 GPU 资源合理性,比如弹性 GPU 利用效率优化(虚拟化,调度算法,混部等)IT 成本运营 基础架构控制Capex 自上而
5、下的成本目标拆解,成本运营控制实际采购支出;将业务需求转化为采购需求;主要目标是优化平台单价,提升容量供给能力(单位资源成本)底层用更廉价资源;提升资源使用效率;业务BU控制Opex 各平台做为私有云,统一提供云账单给业务,支持计费和对账(资源运营成本);业务根据账单了解成本趋势,分析成本组成、协助财务计算ROI;业务BU根据业务实际增长,控制和优化用量(业务运营成本);IT 成本运营单位资源成本单位资源成本资源运营成本资源运营成本业务运营成本业务运营成本资源效能 =TCO 理论资源量 理论资源量 可售卖资源量 可售卖资源量 已售卖资源量 已售卖资源量 已使用资源量 已使用资源量 Key-Dr
6、iver Key-Driver Revenue核心指标 资源单价成本节省 采购、系统 资源利用率、资源效率(减少冗余)例:CPU平均到40%SRE、平台、资源运营 各业务、平台 业务ROI例:点播单VV带宽关键行动 多供应商议价服务器配置优化WebCDN回源切B2超分、弹性(VPA、HPA)、混部、分时复用资源治理、降配、回收,未达标不交付新机器vCDN建设,DCDN和视频CDN复用带宽视频码率优化图片压缩AVIF客户端资源美摄美摄SDKSDK自建自建CDNCDN接入层资源SaaS层资源PaaS层资源IaaS层资源基础设施层资源美声美声SDKSDKLive2D SDKLive2D SDK版权保