1、可观测的难点和最佳实践 阿里云原生可观测持续发展之路徐彤(绍宽)徐彤(绍宽)阿里云原生可观测团队,高级技术专家,参与阿里云近5年来的可观测体系建设和演进业务实时监控(ARMS)混合云技术负责人,同时负责AIOps、Grafana等技术团队个人简介可观测技术成为战略趋势“可观测性以高度统筹与整合高度统筹与整合的方式将用户数字化操作所产生的可观测数据进行反馈并创造决策循环,提高组织决策有效性。如能在战略中予以规划并执行,可观测性将成为数据驱动型决策的最强支撑数据驱动型决策的最强支撑。”Frances Karamouzis第一阶段应用试点上云应用试点上云基础平台搭建基础平台搭建第三阶段全面上云全面上
2、云多云策略多云策略第二阶段云原生改造云原生改造重点系统上云重点系统上云 使用云上的使用云上的IAASIAAS服务,使服务,使用云主机替代部分本地机用云主机替代部分本地机器器 部分应用迁移到云上,或部分应用迁移到云上,或者在云上重新部署者在云上重新部署 部分数据库和存储使用云部分数据库和存储使用云上对应服务替换上对应服务替换使用云上的PaaS服务和企业SaaS服务、降低系统运维成本,提升系统稳定性按实际情况复用现有微服务框架和能力,引入PaaS组件(双模微服务、微服务管理框架、容器云平台和Devops平台企业现有运维能力技术栈平滑迁移基于第二阶段的适配经验,完成云原生适配,系统全面完成云化改造基
3、于性能、可用性、安全和成本考虑,通过多云实现更好的服务交付,去分散风险,降低成本,提升覆盖区域企业上云对可观测技术发展影响云的价值低高使用云的深度高调研论证Plan开发/测试Development预上线Pre Production生产运行Production对云原生可观测使用频率业务演进时间推移应用生命周期管理 无侵入、白屏化 所见所得运行环境日常监控辅助决策主动拨测A/B 流量比例测试金丝雀灰度发布压测调优部分应用/独立业务部署到云上,依赖的中间件等替换成云服务未立项(无预算)mvp 验证应用试点上云阶段对可观测平台的诉求 可观测无盲点 自动服务接入 自动应用拓扑 白屏下钻分析 灰度/压测场
4、景化视图 微服务埋点深度 代码粒度的profiling 主动拨测 智能巡检诊断 开箱即用云资源告警,智能阈值告警配置 Continue Profiling应用试点上云阶段客户特点应用量少,但是语言、框架丰富对于云上资源、SaaS服务稳定性缺乏信任对容器、云的理解尚浅,自运维难度高客户诉求不修改代码,对现有代码无侵入接入过程自动化,白屏化可观测覆盖无盲点,自身应用和云组件都能统一可观测有运维容器、微服务等最佳实践能降低上云门槛应用试点上云阶段对可观测平台的诉求可观测平台核心诉求点存储计算查询告警可视化智能化234567采集1多语言/框架支持,无盲点无盲点可观测,埋点深度覆盖微服务全过程无侵入,白
5、屏化,自动化接入能力动态、持续Profiling支持按需存储,自主可控提供多维度分析指标、链路数据能力提供白屏化查询、探索、下钻能力,方便观测应用、资源自身及上下游的状态对于云资源提供开箱即用的告警指导用户配置应用告警的最佳实践自动洞察调用拓扑,清晰看到应用调用关系、资源依赖关系云资源和已经接入的应用,提供统一视图场景化视图预置容器、云资源、微服务观测和诊断最佳实践无侵入自动化最佳实践运行在Linux内核中的虚拟机,可以加载到指定的HOOK点并获取运行时的上下文。无侵入无侵入:成本低,业务无需修改代码动态可编程动态可编程:无需重启应用,动态下发采集脚本高性能高性能:JIT编译成机器码执行高安全
6、性高安全性:内核级别的验证器关键点关键点1:基于基于ebpf完成自动采集能力完成自动采集能力架构感知架构感知,提供自动服务发现能力,网络拓扑能力进程指纹进程指纹,自动识别进程特征,推荐合适的增强探针协议识别协议识别,自适应应用层协议识别与解析链路跟踪链路跟踪,自动调用链路跟踪,支持异步场景流量染色流量染色,无侵入对数据包添加tag,可以实现灰度发布、业务场景的可观测 关键点关键点2:可观测的第四类数据收集可观测的第四类数据收集图片来源:https:/microsoft.github.io/code-with-engineering-playbook/observability/log-vs-m