《QCon上海2025-AI+x+李锐-性能稳定性.pdf》由会员分享,可在线阅读,更多相关《QCon上海2025-AI+x+李锐-性能稳定性.pdf(49页珍藏版)》请在三个皮匠报告上搜索。
1、AI x 前端性能稳定性:快亿级DAU下的智能诊断实践李锐你焦虑吗100亿美1830亿美满分夺冠CursorAnthropicACM FinalIMO牌平AI coding+AI debug 完美闭环,程序员会被替代?性能稳定性视AI 能释放多少产?报警事件(年)必解问题(年)程庞个介绍李锐李锐 快/移动端稳定性负责 2019 年加快,曾就职阿、FaceUnity、华为 主导快移动端稳定性监控拦截排障损应急处置多领域建设 喜欢研究操作系统、编译器、虚拟机等底层技术 KOOM 开源项作者目录0102030405快性能稳定性背景(发展历程|关键挑战)AI x 性能稳定性介绍(分析判断|重点建设|如
2、何实施)实践:AI 辅助根因排障(排障本质|Holmes|焰图)实践:AI 加速应急处置(损具|Ekko|效果分析)总结展望(Agent 开发感悟|机协同|认知提升)发展历程|关键挑战快性能稳定性背景背景快稳定性发展历程2019基础可观测研APML1 基础可观测性2021稳定性问题治理KOOM/MTEL2 具平台化2024故障防御体系Ekko/HolmesL3 体系化2025 今AI x 稳定性兼顾成本和效率L4 智能化背景2025,性能稳定性仍是前端的关键挑战跨团队协作,迭代速度触及底层,疑难杂症执不可控,不可穷举业务复杂终端环境复杂技术栈复杂运时系统机制技术栈前端稳定性线程模型差异FFI命
3、周期内存模型差异原开发ReactNativeH5KMPJsCoreARTV8KN物理环境户操作机型特征资源占缓存数据分析判断|重点建设|如何实施AI x 性能稳定性介绍AI x 性能稳定性:团队产出放器,反哺性能稳定性提升AI 带来的机遇-分析判断调试推理系统知识具使的要求专家程师普通程师:成速度事:程序质量经验积累时间占满法胜任判断资源错配AI 带来的机遇-稳定性体系化建设现状AI 发点如何聚焦?技术体系运营管理体系拦截左移监控排障应急处置开发测试准灰度技术案评审稳定性编码规范CodeReviewIDE检查测联调QA回测单元测试动化测试Mulan 流线静态扫描动化实验室核链路加固发版灰度定义
4、灰度崩停监控数据监控监控排障Keep看板商合作客诉舆情VIP监控OnCall值周AB 巡检防劣化检测KeepHelper问题分配志分析系统领域知识调试具分级触达路径追踪业务领域知识异常现场还原报警处置归因损分级报警分场景报警定义报警预警机制Katrix SOP信息同步决策机制分AB/Kswitch归因Kconf归因运营平台归因端上重点事件安全模式安全垫线上修复版本增发运营体系管理体系稳定性负责稳定性作战室稳定性专家组稳定性复盘会稳定性化建设演练平台预案管理FT 常态演练机制故障处置打分故障演练活动保障SOP上下游协同机制准出红线内测/公测规范活动保障标管理故障定级标准奖惩机制变更管控窗期管控分
5、级发布OnCall管理值班安排决策机制复盘管理重视复盘TODO管理故障应急处置(AI加速)核问题核问题:复杂多维度数据分析,排障线索分散,影响故障处置时间。流程拆解告警接拉群处置故障响应核问题流程拆解核问题流程拆解简单处置疑难处置指标关联归因变更归因故障分析问题归因处置决策处置执故障处理核问题:简单问题重复发,有“固定套路”,研发时间投在重复性事务中。核问题:复杂偶发问题,需要知识积累,强依赖专家经验,修复速度慢。问题识别旧解决案检索修复代码编写流线合学习问题研究假设调试验证执修复AI 带来的机遇-重点建设领域根因排障处置AI辅助 AI代替LLM上下具上下注Keep 平台 MCP短期记忆知识增
6、强结构化输出深度思考多模态多轮对话MR 修复KIM 报告流式/结构化响应Kim MCP源码 MCP具调图编排链式编排ReActPlan And Execute机协作根因修复 Agent故障损 Agent指标巡检 Agent服务基建层Agent 基建层Agent 框架层Agent 业务层Agent 产品层Agent 编排Agent 策略Metric基准评测成本统计志期记忆Gemini CLIClaude Code基于 CLI 的 AgentCodex等等如何实施:性能稳定性 Agent 架构介绍业务场景产品形态技术选型AI 基建后端基建Think tool排障本质|Holmes|焰图实践:AI