1、AI在操作系统运维中的在操作系统运维中的应用和实践应用和实践陈诗雁龙蜥社区系统运维SIG Contributor阿里云技术专家操作系统运维现状和痛点OS运维现状深度诊断工具缺乏业务故障驱动自动化程度低人力成本高OS运维痛点技术门槛高经验依赖大组件关联复杂问题定位周期长自动化困难目前主流企业使用的开源的运维工具,都是基于常规的系统指标进行监控的,从阿里巴巴这几年的双十一保障经验得出,常规的监控指标在规模性大型IT系统显得监控能力不足在操作系统社区,管理运维工具是必不可少的能力,需要一个有竞争力的运维产品来服务未来庞大的用户群体操作系统和开源社区有大量的运维管理工具,但是工具碎片化严重,没有形成统
2、一的系统化的竞争力,没有系统化的运维平台支撑用户的日常运维管理,用户对于操作系统运维都是用到哪学到哪。国内的OSV厂商还不具备提供系统化运维工具的能力,将我们多年的双十一操作系统运维经验产品化的输出后,可以形成SIG-产品-合作伙伴-用户-社区开发者-SIG的良好的生态循环操作系统运维平台操作系统运维平台SysOMSysOM操作系统一体化运维平台SYSOM操作系统问题支持稳定性问题分析系统诊断工具AIOPS阿里云操作系统稳定性支持双十一操作系统运维经验稳定性问题分析报告完善工具覆盖度,改善工具保障工具服务服务效率SYSOM一键诊断 深入诊断工具已知问题自动检测脚本指标数据、日志分析火焰图分析智
3、能健康度智能机器人告警、问题流程LLM咨询答疑诊断copilot系统诊断AIOPS数据分析问题流程平台协作LLM自动化智能化智能机器人SYSOM自动化、智能化操作系统运维平台目录01AI在宕机分析领域应用02监控指标的异常分析03监控日志的异常分析AI在宕机分析领域应用01什么是宕机宕机的表现内核输出宕机日志可通过配置kdump,生成内核的core dump宕机的影响重启、业务中断难提前监控,难分析重复问题不断发生,造成更大影响main宕机,指操作系统无法从一个严重系统错误中恢复过来,或系统硬宕机,指操作系统无法从一个严重系统错误中恢复过来,或系统硬件层面出问题,以致系统长时间无响应,而不得不
4、重新启动计算机件层面出问题,以致系统长时间无响应,而不得不重新启动计算机的现象。它属于系统运作的一种异常现象,任何电脑系统会出现这的现象。它属于系统运作的一种异常现象,任何电脑系统会出现这种情况。种情况。宕机匹配准确率仍需提升不同内核版本输出差异,分析困难单纯字符串匹配准确度低纯调用栈匹配存在缺陷新宕机新宕机特征提取特征提取已知宕机匹配模型TF-IDF计算权重计算权重计算匹配结果和排名计算匹配结果和排名构建模型构建模型构建词袋构建词袋TF-IDF计算权重计算权重Multinomial Naive Bayes宕机类型宕机类型数据处理数据处理加载模块加载模块内核版本内核版本执行命令执行命令关键调用
5、栈关键调用栈内核异常日志内核异常日志内核异常日志调用内核异常日志调用栈栈数据选取数据选取数据清洗数据清洗数据转换数据转换利用处理输出梳理实际1k+宕机兼容多种内核版本高匹配率、低延迟匹配不同调用栈的相同问题新手难分析海量信息难搜索内核补丁修复过程难如何找到一个宕机解决方案搜索引擎bugzillamailing listgit commit包含关键信息补丁占比少少无法只通过调用栈匹配宕机补丁范围有限有限有效筛选提交格式没有标准无法模式匹配Linux主线补丁现状无调用栈20%有调用栈80%宕机补丁包含调用栈占比宕机补丁2%其他补丁98%宕机内核补丁占比提交格式和信息都不同数据来源于 github
6、中linux仓库 master 分支中的所有提交记录的分析统计github地址:https:/ COMMIT基于莱文斯坦距基于莱文斯坦距离的离的TF-IDF提取异常日提取异常日志志时间信息提时间信息提取取补丁内容补丁内容本地处理&匹配词向量TF-IDF余弦相似自然语言转换宕机分类特征提取数据清洗模式设计补丁子模块补丁子模块提取异常调提取异常调用栈用栈提取异常调用提取异常调用栈栈异常日志自异常日志自然语言转换然语言转换Sentence Transformers转换成嵌入向量转换成嵌入向量计算加权得分计算加权得分提取内核版提取内核版本本筛选符合时间段筛选符合时间段的的commit宕机分类宕机分类宕