1、亿级用户背后的智能诊断:多模态数据融合与实时诊断实践徐建伟目录01020304从从人肉排查人肉排查到到AI诊断诊断:bilibili 的痛点与机遇的痛点与机遇智能诊断核心架构和演进思路智能诊断核心架构和演进思路核心场景的核心场景的 AI 化改造实践化改造实践技术演进方向与实践展望技术演进方向与实践展望01bilibili 的痛点与机遇从人肉排查到AI诊断亿级用户背景下的故障挑战:复杂度指数级增长当故障发生时,监控系统会几百个服务,成千上万的组件中瞬间产生海量的、多维度的原始数据数据洪流与信息过载规模庞大、组件繁多、交互关系错综复杂,而依赖的传递性与放大效应会导致排查困难系统复杂度与依赖黑洞微服
2、务之间都是网状调用,一个服务挂了,所有依赖它的服务都可能被拖垮,形成雪崩效应爆炸半径与隔离难度故障发生时,多个团队(网络、基础设施、应用、数据库)在高压下如何快速协同,避免扯皮和信息混乱。组织协同与沟通成本传统线上排障的三大瓶颈时间成本时间成本手动排查,流程串联拉群、查日志、口头同步MTTR(平均恢复时间)过长,业务损失准确率准确率依赖经验,易误判拉群、查日志、口头同步处理方案无效,甚至扩大故障知识传承知识传承知识隐性,难复制“大神”的直觉和经验人员变动导致运维能力断崖式下跌高质量、统一的可观测性数据基础领域知识与AI技术的深度融合与运维系统和办公协同软件集成持续学习与反馈优化能力数据稳定性建
3、设协同知识反馈AI 技术带来的机遇:数据驱动+智能推理02根因分析核心架构和演进思路场景化分析模型请求异常场景数据延迟慢请求场景业务下跌模型分析多模态知识图谱CMDB关联图谱数据库关联图谱缓存关联图谱接口上下游,强弱图谱整体架构profilingevent日志链路指标异步消息图谱1Metric&alarm 按照一段时间聚合(默认30秒),2Trace明细采样数据,微服务之间的调用关系明细3Log,明细数据,记录一些关键信息和异常信息4关联数据,相互印证可能的原因Event&Profiling多模态数据融合知识图谱构建在线推理与自动处置规则注入与图谱增强抽象归纳与规则定义将来自不同源头、不同格式
4、的监控数据(主要是指标、日志、追踪)进行采集、对齐、关联和融合,形成一个统一的、具有上下文的视图多源数据集成多源数据集成选择了为关系查询而生的图数据库作为最佳载体,将散落的知识点有机地整合成一张映射真实系统架构的语义网络知识存储与图谱构建知识存储与图谱构建多源异构的运维数据中,自动识别和提取出关键的、结构化的信息片段,这些信息片段将成为知识图谱中的“实体”和“属性”知识抽取与实体关系定义知识抽取与实体关系定义利用已经构建好的、结构化的知识库(知识图谱),通过模拟人类专家的思维过程,对实时故障数据进行自动分析、推理和决策知识应用与智能推理知识应用与智能推理案例沉淀与模式发现大小模型分析自然语言处
5、理自然语言处理+时序分析的深度融合时序分析的深度融合时序算法分析时序算法分析时序分析算法(如异常检测模型)检测到某个服务的P99 延迟指标在10:05:00出现一个尖峰(异常点)。.多模态数据关联与上下文多模态数据关联与上下文构建构建系统根据触发异常的时间点和实体,自动拉取相关时间段内的所有关联数据,并将其组织成一个结构化的“上下文窗口”大模型推理与分析大模型推理与分析准备好的多模态上下文信息,精心构造成提示词(Prompt),提交给大模型(如GPT-4,LLaMA,或领域微调的模型)进行分析数据提纯:打造高信噪比的诊断燃料清洗去重,无效值处理,噪音过滤,格式化对齐时间对齐(时间同步,时间窗口
6、划分)实体对齐(标签统一,拓扑关联)增强富化(添加更多描述性标签)衍生指标计算(从原始指标中计算出更有业务意义的表现力指标)模式发现(发现频繁出现的错误模式)1去芜存菁,得到原材料大幅减少数据量,只保留与本次故障强相关的数据片段。这是降低噪音的关键一步。搭建骨架,建立数据之间的时空关联2对过滤后的数据进行分组、统计和模式识别,将零散的个体异常汇总成群体性规律,从而发现共性问题。画龙点睛,注入业务语义和上下文3将不同来源(日志、指标、追踪)和不同组件的数据进行交叉关联,为故障点补充完整的上下文,最终定位根因。这一步是“为什么”的关键。模型迭代:动态调整推理