董善东-字节跳动 SRE Agent 从 0 到 1 的降噪与排障实践-final.pdf

编号:1188829 PDF 43页 6.12MB 下载积分:VIP专享
下载报告请您先登录!

董善东-字节跳动 SRE Agent 从 0 到 1 的降噪与排障实践-final.pdf

1、把 50%值班时间抢回来:字节 SRE Agent 从 0 到 1 的降噪与排障实战董善东20251024个人&团队简介深耕 AIOps&可观测行业多年,在异常检测、根因分析、Agent 应用等领域有比较深入的行业认知和产品功能 Build 经验。曾就职于腾讯云、阿里云。团队面向整个字节内部开发者提供观测平台,与多个团队协同构建Metrics/Traces/Logs/Events等数据埋点&加工链路&存储,并基于此提供一站式的监控、报警、日志、链路追踪、根因分析等产品化能力董善东 博士字节跳动Dev Infra-观测平台算法负责人目录01020304005现状和痛点产品架构演进落地场景1:噪音

2、告警识别和处理落地场景2:业务自定义分析总结&展望01现状与痛点现状简介抄近路-AIOps+LLM智能化内置RCA各处集成自动化产品演进覆盖度平台能力场景化应用数据标准双线并行、相辅相成、增强LUI/Agent化保持产品演进长期方向,建设好基础能力,同时为AI铺路提高AI投入,通过AI应用降低使用成本,同时辅助用户理解产品设计增强LUI的全新交互能力、逐步将各类应用Agent化、通过Agent实现发现-分析-处理的闭环现状和挑战:-需服务内场最大的用户量、业务量,业务多样性大,很多业务处于狂奔-观测平台和业务部门的稳定性平台的合作与“竞争”-AI时代更需要直面业务的最终需求来解决问题LUIAg

3、ent化告警值守的4大环节和痛点-业务问题的分析比较难。-业务排查经验无法沉淀和复用。发现异常和分析1 1-平台存在大量注入规则,大量告警无人查看和处理-噪音和重要告警传统手段区分不明显。告警接手和处理2 2-告警上下游排查和协同成本高-告警和故障复盘总结消耗太大告警协同和复盘3 3告警优化和预防-有些告警明显规则不合理,但是人没有精力和能力进行规则优化调整4 4告警噪音突出、业务分析难、个性化知识加载困难Agent引入来解决这些痛难点,有哪些优势?1.优秀的观测平台+AIOps基础:-观测数据标准化、全面准确的元数据-异常检测、RCA分析、告警聚合面向微服务的检测分析做了很好的积累和内部落地

4、-打造了low/mid/high level 的tool service 2.LLM 作为一个通用大脑,已经展现出语义理解、复杂任务规划与拆解、工具调用、自主决策与学习方面又得到了增强。LLM+Agent范式+领域Tools+知识&学习02产品架构演进产品层:Tools-Workflow-Agent/Agent Studio1.APM as a service-MCP Tools 工具集合2.流程编排的 Workflow3.Agent StudioWeb&Lark LUIweb端:-结合页面context,进行进一步的分析移动端:-结合告警的context,进行分析SRE Agent平台架构A

5、gent执行请求SRE Agent 的探索和踩得坑定位:打造SRE Agent,解决繁琐、重复的劳动阶段1利用langgraph等构建多Agent利用MCP 实现tools 的封装实现多轮交互式的RCA CopilotAgent快速尝试阶段2业务排障的SOP 能够执行探索Agent的上限阶段3-变更值守的巡检-告警值守的噪音处理-LogID 的自定义分析Agent在值守场景的MVP与优化阶段4-评估量化驱动优化SRE Agent上线坑 2:多轮执行的准确率不稳定坑 3:多场景扩展时,工具和场景Agent封装粒度的tradeoff坑1:需要用户不断交互进行下一步分析,用户不买单总结:踩过的坑踩坑

6、经验踩坑经验1初期聚焦 RCA Copilot 单一场景时,多轮交互式分析的准确率、场景覆盖度未达预期,难以真正替代人工高效定位问题。单一场景(单一场景(RCA CopilotRCA Copilot)多)多轮交互的精准度与实用性不足轮交互的精准度与实用性不足2尝试自动化执行业务排障 SOP、多轮流程(如 React 类操作)时,复杂场景下执行准确率不足,无法可靠替代人工步骤。多轮自动化执行(如流程类多轮自动化执行(如流程类 ReactReact)的准确率不稳定)的准确率不稳定3随着值守、巡检等场景增多,工具的“组织粒度”(过粗缺乏灵活性,过细则维护成本剧增)成为瓶颈,难以高效支撑多场景复用。场

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(董善东-字节跳动 SRE Agent 从 0 到 1 的降噪与排障实践-final.pdf)为本站 (bungbung) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠