《天猫 AI 全栈交付实践:从个人工具到团队研发提效解决方案-珈文.pdf》由会员分享,可在线阅读,更多相关《天猫 AI 全栈交付实践:从个人工具到团队研发提效解决方案-珈文.pdf(14页珍藏版)》请在三个皮匠报告上搜索。
1、2026.03.21阿 巴巴 全球总部 _访客中中国杭州 HANGZHOU CHINA天猫 AI 全栈交付实践 从个具到团队研发提效解决案珈(曹志强)淘天集团 技术专家 AI 具 个提效 组织提效程序员时间分布我们的 Brownfield近200 名开发程师 10+个业务域/16+作台 4 类发布平台/1000+存量 2025下半年 启动后端全栈试点 零前端基础 AI 独交付 编码 25%AI 把这做快了 理解需求 25%沟通协调 30%合计 75%纹丝不动 等待 20%瓶颈转移:上下缺失 协同摩擦 质量验证个具=个技能 X 具熟练度 团队案=解决案落地深度 X 团队规模微观视 把当下做到极致
2、 出码质量 调试验证 研发流程宏观视往范式转变延伸 云端全栈 异步委派 多Agent协同 我们建了什么,做到了什么在试点的业务线上达到了98%的AI代码采纳率户端 VsCode户端Web数据管理 配置后台我们建了整套 AI 研发具和体系 驱动:数据闭环 业务域隔离 模型零槛 建设,全员受益 知识运营 信号驱动知识沉淀主动发现隐形知识数据验证&差异化 报错信息出现 可能踩坑 多轮调试 5 轮 复杂问题 否定表达(不对改回来)AI 理解有误 同件多次编辑 反复修改 1 动捕获 128 条经验知识,pitfall 占 51%vs Cursor Memory/Claude 记忆:跟着个设备,是个助 我
3、们基于数据闭环拿到全部会话数据,是团队知识 A同学踩坑并解决系统动沉淀总结B同学遇到直接解决系统动沉淀总结知识运营 云端统管理下发能配置跟着仓库,不跟 报错信息出现 可能踩坑 多轮调试 5 轮 复杂问题 否定表达(不对改回来)AI 理解有误 同件多次编辑 反复修改 核问题:个业务域上百个仓库 让每在每个仓库动配置 AI 规则 不现实云端下发流程:Git Group/Repo 信息 系统动识别业务域 下发对应配置 下发内容(三个卡并排):AGENTS.md 开发规范 mcp.json 具配置 团队 Skills 设计原则:打开项就能,零配置 处修改,全局效 动化 动,集中管理 分散维护 下发配置
4、流程业务配置后台数据度量从感觉有效到数据证明 三个陷阱:幸存者偏差:成功案例反复提起,失败统计 归因错误:做快了是 AI 还是需求本身简单?个体差异:3 100%+7 没变=平均 30%三杂度矩阵(核视觉,维矩阵图):从真实业务中抽取 60 个历史需求 按两个维度映射到九个象限:开卷考试:结果分 75%:代码是否满需求(LLM as Judge)为分 25%:Agent 有没有查档、调知识库 不仅看答案对不对,还看有没有翻对书 碰巧正确 稳定正确 数据度量在线分析:定位具体哪条知识有问题链路漏:调率 命中率 采纳率 调率低 Agent 不知道要查资料,Prompt 引导有问题 命中率低 知识库
5、覆盖不,索引质量差 采纳率低 召回了但不好,召回精度有问题核洞察:知识被了但没有频低效=浪费 Token+可能误导模型阈值:动态中位数,随整体质量动调整 调率低 Agent 不知道要查资料,Prompt 引导有问题 命中率低 知识库覆盖不,索引质 采纳率低 召回了但不好,召回精度有问题优化效果:针对频低效知识逐优化 关联采纳率 18%35%调率低 Agent 不知道要查资料,Prompt 引导有问题 命中率低 知识库覆盖不,索引质 采纳率低 召回了但不好,召回精度有问题胶编程 物料驱动可控编码确定性的给脚本,不确定性的给模型 Agent 写代码背后有四个彼此独的决策答对任何个,不保证其他三个也
6、对。任务规格定义这次做什么,开发规范划定什么不能做,代码模式提供抄什么,领域知识标注有什么坑。四种失败模式互不重叠,每层物料恰好堵个,少层多种漏洞。与其优化 SPEC 让 AI 写得更好,不如直接给它好的东来抄。LLM 的底层能就是抄+改有参照物时表现显著优于没有时。SPEC 管意图(做什么),物料管执(怎么做),两者叠加才是完整的可控编码。90%抄,10%写,胶只在缝隙处。Harness AI 主诊断调试让 AI 直接看到现场,不是听转述传统链路:报错 看到(损失50%)复制字(损失30%)AI 基于字猜 理想链