1、刘劲松字节跳动刘劲松刘劲松字节跳动专注服务架构,质量效能,云原生,GenAI领域开源流量回放项目Conan负责人Github:https:/ Star:730目录目录CONTENTS困境架构业务挑战0102破局稳定性工程从自动到智能量化Agent解构稳定性洞察03长期AI原生未来已来04PART 01PART 01困境-架构业务挑战架构业务挑战架构业务挑战-业务形态业务形态ByteDanceByteDance架构业务挑战架构业务挑战基础性与全域支撑基础性与全域支撑-接入层QPS:3 3KWKW|服务数:1W+1W+-高峰期时长持续10+小时-业务主路,核心链路强依赖技术密集性与高复杂度技术密集
2、性与高复杂度-接入层,流量切面,消息中间件-通用场景与垂类场景平衡复杂度-技术趋势下的架构持续优化业务协同与动态适配业务协同与动态适配-覆盖多技术角色,需求差异-全球架构适配-业务侧架构与稳定性的协同演进架构业务挑战架构业务挑战-稳定性稳定性波动归因波动归因架构事故引入原因架构事故引入原因分布分布架构产品架构产品SLASLA运营运营变更变更 标准化程度弱标准化程度弱感知定位感知定位 能力不足能力不足容灾容灾 能力难应用能力难应用业务使用业务使用 风险风险 高高容量容量 资源劣化资源劣化PART 02PART 02破局-稳定性工程从自动到智能架构稳定性工程架构稳定性工程体系现状体系现状架构稳定性
3、可视化架构稳定性可视化高风险巡检高风险巡检工单工单风险感知风险感知能力能力核心链路依赖组件核心链路依赖组件容量容量合理性合理性发布变更发布变更风险风险稳定性工程现实与稳定性工程现实与理想理想体系价值体系价值:覆盖接入层,服务中间件,单元化解决方案等核心产品,稳定性结果达成预期-高危事故数 10+10+例例-0 0例例-SLA 99.87%99.87%-99.95%+99.95%+存在问题存在问题:稳定性事项注重了广度,深度不足(考虑ROI),大部分工作已自动化,但依赖经验判断,提效空间大,与架构演进速度不成正比-【高风险【高风险-变更】变更】接入层&服务组件配置灰度漏召率4.2%4.2%-【稳
4、定性洞察与治理】【稳定性洞察与治理】稳定性多维度深度分析与治理推进,消耗人力较多如何消弭差距如何消弭差距 自动化自动化-智能化智能化 From:AI Agents:Evolution,Architecture,and Real-World Applicationshttps:/arxiv.org/abs/2503.12687GenAIGenAI落地范式逐步落地范式逐步优化优化高质量数据高质量数据集积累集积累【变成风险】【变成风险】&【稳定性洞察】【稳定性洞察】智能化演进前置智能化演进前置条件条件准化程度弱准化程度弱 核心核心应用场景应用场景-中间件中间件配置变更配置变更-变更可读性差变更可读性
5、差-影响范围评估难影响范围评估难变更前变更前变更中变更中变更后变更后-版本配置版本配置DIFFDIFF具备能力具备能力不足不足-精准检测能力精准检测能力弱弱-业务风险关联业务风险关联弱弱-指标检测能力指标检测能力-发布灰度流程发布灰度流程具备能力具备能力不足不足-总结归因依赖人工总结归因依赖人工-快速快速回滚回滚-数据回收数据回收具备能力具备能力不足不足核心核心应用场景应用场景-中间件中间件配置变更配置变更变更摘要变更摘要影响范围量化影响范围量化风险处理建议风险处理建议自动精准检测自动精准检测核心应用场景核心应用场景-变更变更AgentAgent带来带来的强化的强化变更摘要变更摘要变更内容语义
6、化解决变更内容可读性差的问题精准检测精准检测精准识别变更影响范围,注入关联检测指标,避免问题稀释无人值守无人值守(理想态理想态)通过精准检测结果,Agent做根因分析后决策并执行对应处理流程变更变更AgentAgent架构方案架构方案选择选择ChainGraphReAct变更变更Agent ReActAgent ReAct具体具体实现实现根据流水线元信息与Prompt作为输入,在原子中做触发,通过LLM将任务拆解为具体的可操作的步骤。为了保证执行顺序的合理性,会通过PE工程做优化。Planner待执行行为经过顺序校验后进入执行态,通过调用Tools或模型得到预期的返回(Tools中可能存在内部