当前位置:首页 > 报告详情

3-石鹏-美图FinOps探索之路.pdf

上传人: 2*** 编号:151988 2024-01-05 50页 14.14MB

1、美图FinOps探索之路石鹏(东方德胜)美图公司 高级运维经理讲师简介石鹏(东方德胜)美图公司 高级运维经理请插入您的照片2016年加入美图,运维技术专家,美图产品SRE负责人。目前在美图负责社区、商业化、创新、实验室、影像SaaS等全线产品的运维保障工作。多次参与或主导过公司基础设施的调整、改造,在监控、灾备建设、故障管理、稳定性运营等方面有一定的经验和积累。业界多个技术大会的分享嘉宾、金牌讲师或出品人。目录VUCA&SRE&FinOps推行FinOps的一些框架参考美图在FinOps方向的探索AIGC浪潮下的FinOps开展SREFinOps目录UVCA&SRE&FinOpsVUCAVol

2、atility(易变性)Uncertainty(不确定性)Complexity(复杂性)Ambiguity(模糊性)RUPTBANIuRapid(急剧)uUnpredictable(莫测)uParadoxical(矛盾)uTangled(缠绕)uBrittle(脆弱)uAnxious(焦虑)uNonliner(非线性)uIncomprehensible(不可理解)1990s20182022https:/www.vuca-world.org/vuca-bani-or-rupt/从VUCA时代聊起美图SRE的核心工作职责 岗位:产品SRE 职责:保障线上服务的稳定性建设工具/平台/基础设施 提升效

3、率用技术手段来控制、优化服务的运行成本 愿景:做美图服务最稳的大后方SRE的目标:寻求三个核心职责之间的平衡稳定性成本效率三个核心职责 与 企业发展的关系稳定性成本效率+安全降本增效安全生产+让企业活着让企业获得优势FinOps目录推行FinOps的一些框架参考https:/www.finops.org/introduction/what-is-finops/框架/体系:FinOps FrameWork框架/体系:FinOps成熟度模型框架/体系:DevXOps/FinOps vs AppLifecyclePlanCodeBuildTestReleaseDeployOperateDevSecO

4、psDevPerfOpsAIOpsDataOpsGitOpsChatOpsFinOpsX-Ops不管白猫黑猫,能抓住耗子就是好猫。Value岗位价值technical Cost技术花费Availability tolerance可用性容忍度People人力投入框架/体系:成本管控之不可能三角框架/体系:成本优化的核心逻辑成本开销=资源单价*资源实际用量=资源单价*(资源理论用量/资源利用率)目录美图在FinOps方向的探索围绕资源利用率的探索20162017基于机器负载,CPU/MEM利用率指标的资源管控;初步建立成本意识;基于成本决策中心的实践20182020建设MTCC,实现成本归集,成本

5、摊分细化,提升ROI量化能力;20192020 美图业务全量上云20202022系统重构,适配多云环境;分摊算法优化,分析功能增强;体系化的FinOps尝试2022卷入更多人员角色,建立健全组织,刷新规范流程;体系化运营:SRE CostBP,预算提报,月度对账,例行分析探索/实践:几个阶段的概述单台机器Load指标(Mem,CPU同理).=+!#$#()/100获取全天负载监控值(sys.load_per_core:一分钟负载按逻辑核数平均数),并排序取排序后最高的前100个值求平均,作为该机器负载指标PS:Mem指标:mem.memused.percentCPU指标:cpu.idle,由于

6、cpu.idle为空闲值,为获取占用值,计算时取反,即100减去该值探索/实践:Phase1-围绕资源利用率的探索单台机器探索/实践:Phase1-围绕资源利用率的探索机器组(按部门)Load利用率(Mem,CPU同理).=(%&()%*+%_%&(!-_%&()/load.countUsed=!#)(+.(+).UnUsed=servers.count*(100 Used)PS:部门中每天台机器取其全天load的均值作为其load指标(此处为全天均值,非top100均值)将每台机器的load相加,获取部门Load使用总量使用部门Load总量减去Load总量,获取Load未用总量探索/实践:P

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了美图公司在FinOps方面的实践和探索。石鹏(东方德胜),美图公司高级运维经理,介绍了FinOps的概念,并分享了美图在推行FinOps过程中的经验和挑战。 关键点如下: 1. 美图在2016年加入FinOps,致力于提高线上服务的稳定性,建设和优化工具/平台/基础设施,降低服务运行成本。 2. 石鹏强调了在监控、灾备建设、故障管理、稳定性运营等方面的重要性,并分享了业界多个技术大会的精彩内容。 3. 美图在FinOps方向的探索包括:基于机器负载、CPU/MEM利用率指标的资源管控;建设成本决策中心;实现成本归集、成本摊分细化;推进业务全量上云;系统重构,适配多云环境等。 4. 石鹏提出了FinOps框架,包括成本管控、资源纳管、弹性供给策略、可观测性建设等方面,并指出FinOps的理念适用于其他成本管控场景。 5. 美图在AIGC浪潮下的FinOps开展面临诸多挑战,如GPU资源供给不确定性、业务资源诉求高等。石鹏提出了一系列应对策略,包括多云资源交付纳管、基础设施建设完善、稳定性保障、持续运营等。 综上,美图公司在FinOps方面的实践探索旨在提高资源利用率,降低成本,确保服务的稳定性,并为其他企业在成本管控方面提供了有益的借鉴。
"FinOps如何提升企业资源利用率?" "AIGC浪潮下,FinOps如何应对业务挑战?" "多云环境下,FinOps如何优化资源调度与成本管控?"
客服
商务合作
小程序
服务号
折叠