《郭刚平-火山引擎 Prometheus 面向大模型场景的优化实践.pdf》由会员分享,可在线阅读,更多相关《郭刚平-火山引擎 Prometheus 面向大模型场景的优化实践.pdf(32页珍藏版)》请在三个皮匠报告上搜索。
1、火山引擎 Prometheus 面向大模型场景的优化实践郭刚平目录01020304大模型场景指标观测需求和挑战火山引擎 Prometheus 优化思路火山引擎 Prometheus 优化实践总结与展望01大模型场景指标观测需求和挑战大模型场景 Prometheus 全栈监控CPU 服务器GPU 服务器网络 RDMA分布式存储AI基础设施(IAAS)推理服务API模型开发MCP、Agent 开发AI应用(MaaS)AI平台(PaaS)模型推理SGLang/vLLM/xLLM.模型训练Ray/TensorFlow/Argo Workflow/veRL.容器平台cAdvisorkube state
2、metricsWorkload 调度管理Prometheus贯穿各层集成度高依赖度深高扩展支撑的指标规模上限要高,能够水平扩容高性能查询速度快、能够容忍一定程度的不合理指标打点高可用服务可用性、租户间隔离、请求间隔离低门槛接入简单、托管运维、查询方便、告警开箱即用大模型场景指标观测需求和挑战高基数问题HPA可靠性租户QoS保障案例一:火山方舟平台在线推理服务特点特点 2 2:SLOSLO、成本效率要求高、成本效率要求高重度依赖基于自定义指标的重度依赖基于自定义指标的HPA HPA 可用性要求高可用性要求高特点特点 1 1:面向:面向ToD/ToCToD/ToC的推理的推理APIAPI服务服务指
3、标规模随用户数线性增长指标规模随用户数线性增长高基数、重查询问题,影响其他小租户高基数、重查询问题,影响其他小租户API Gateway推理引擎vLLM/xLLM/dynamo/sglang.典型推理服务架构模型Qwen/DeepseekPrefill PodsDecode PodsPod 弹性扩缩 HPA/KEDA分布式缓存镜像加速/模型缓存/KV CacheOSSPrometheusPrometheus Adapter网关查询网关查询网关写入网关写入网关多租户/多AZ容灾存储集群存储集群存储集群轻查询重查询租户A租户BCPU高反压超时/失败AppApp案例二:自动驾驶云平台特点:大量短生命
4、周期的任务特点:大量短生命周期的任务高基数问题高基数问题每天下午开始每天下午开始RecordingRuleRecordingRule 执行失败执行失败自动驾驶云容器集群PrometheusWorkflowWorkflowWorkflowWorkflowWorkflowWorkflow02火山引擎 Prometheus优化思路火山引擎 Prometheus 监控平台架构自监控自监控&运维告警运维告警接入中心网关查询网关查询网关写入网关写入网关多租户/多AZ容灾存储集群监控看板告警中心RecordingRule存储集群存储集群存储集群存储集群.集群管理集群管理(租户元数据、组件弹性扩缩租户元数据、
5、组件弹性扩缩)数据消费火山引擎 Prometheus 优化思路思路与原则思路与原则1从sdk-agent-网关-存储引擎 整个链路看端到端视角端到端视角2从集群-租户-请求粒度 逐层分析看全层次视角全层次视角3宁可查询请求慢一点,也要尽量避免整个服务挂掉影响更多用户可慢不可瘫可慢不可瘫4从水平、垂直视角,合理优化提升系统上限辅以治理解决方案,帮助用户发现、治理不合理使用姿势优、治结合优、治结合具体解法问题问题整体方向整体方向端到端视角端到端视角全层次视角全层次视角可慢不可瘫可慢不可瘫优、治结合优、治结合高可用:高可用:租户租户QoSQoS 保障保障加强隔离,设置兜底网关:识别大流量租户并拆分独
6、立集群集群粒度:识别大流量租户并拆分独立集群租户粒度:查询请求shuffle sharding,降低故障域请求粒度:设置自我保护性资源限制计算节点:Never OOM 设计慢查询分析查询封禁子用户限流细化Qos 限流项高可用:高可用:HPAHPA 可靠性可靠性预测能力HPA:增加预测能力,降低延迟集群粒度:多AZ 容灾高性能高性能/高扩展:高扩展:高基数问题高基数问题治理为主,降低基数打点SDK:不活跃时序自动过期删除引擎:小时粒度索引,减少无效扫描集群粒度:数据跨集群分流,统一聚合查询,提升扩展性打点姿势最佳实践采集Agent:Agent 侧写入预聚合,降低指标维度火山引擎 Promethe