1、AI Agent 的最后公:构建产级代操能陈波阿巴巴,前端技术专家,A意助前端负责陈波阿巴巴,前端技术专家计算机硕。历任易,资深前端开发程师;阿巴巴,前端技术专家。A 意助前端负责。期聚焦AI与多端程的交叉领域,主导建设了AI代操框架actum覆盖浏览器插件、SDK、云端容器三种部署形态,撑商家业务的智能导航、动化选品等多个场景。当前主攻AIAgent操作能层的程化落地与评测体系建设。录CONTENTS0102030405交互困境与 Agent 操作能栈(Why)20252026:代操格局的年洗牌(Where)四程挑战与解法(How)评测体系:代操的胜负(Verify)业务落地与三条新战线(F
2、uture)PART 1平台交互困境与 Agent 操作能栈(Why)商家业务的交互困境200+菜单47%routine task功能深埋 平台功能多、层级深,找不到学习成本 每个功能都有独特的操作逻辑操作碎化 完成个任务要跨多个/系统被动响应 系统不点不动,缺乏智能引导操作复杂从GUI到AUI:商家视的变化访问路径指引:进【意助】【RFQ托管】【动报价配置】LUI时代帮我打开RFQ动报价配置帮我设置动回复询盘,报价市场价低5%GUI 时代AUI时代从学习操作 描述意图 从适应机器 机器理解执层:Agent的和脚三种操作路径 API 直接调 最可靠 WebMCP协议化 标准化扩展中 AI 代操
3、 覆盖尾,兜底切Agent执AI代操感知(Perception)询问(Query)计划(Planning)报告(Report)APIUI代操HeadlessWebMCPPART 220252026:代操格局的年洗牌(Where)20252026 关键事件时间轴WebMCP:从 PPT 到 Chrome CanaryPART 3四程挑战与解法(How)AI代操的程挑战AI代操的程挑战 能复挑战1 看懂挑战2 稳定决策挑战3 准确执挑战4 规模化输理解决策输出操作执挑战1:看懂模型选择 Prompt构建 实时感知 离线知识增强维度VL模型(视觉语)LLM模型(纯语)原理截图 图像理解 坐标点击DO
4、M解析 本理解 元素操作适场景Canvas、视觉布局、DOM场景信息提取、常规操作(90%场景)通性,任何界通 中,依赖DOM质量精度坐标可能偏移 精确到元素成本(图像Token)低(约1/10)响应速度 慢(截图+推理)快推荐模型 Qwen3-vlVL+LLM 混合求最优解Gemini-3-flashGPT-5挑战1:看懂模型选择 Prompt构建 实时感知 离线知识增强挑战1:看懂商家后台DOM复杂,数万节点,token爆炸只保留可操作元素+关键上下”,减少90%量装饰性节点对操作决策意义次进(全局理解)复杂布局判断(如点击右侧按钮)操作失败重试(视觉确认)实时DOM智能简化screens
5、hot Accessibility TreeAccessibility TreeDOM 简化模型选择 Prompt构建 实时感知 离线知识增强挑战1:看懂#索引-名称#基础信息-*ID*:page_xxx-*路径*:/path/to/page-*类型*:列表/详情/表单/仪表盘等-*主要功能*:句话描述核功能-*更新时间*:YYYY-MM-DD#DOM结构树#交互为链路#级跳转-为链路:批量发布 点击#btn-batch-publish(批量发布按钮)跳转/product/batch-publish 功能 打开批量发品,持Excel导批量创建商品#内切换-为链路:切换发布类型 点击#tab-s
6、ingle(单品发布标签)显示.content-area#product-form(单品发布表单)隐藏 其他发布类型的表单内容#弹窗交互-为链路:预览商品 点击#btn-preview(预览按钮)显示#modal-preview(预览弹窗)渲染#preview-content 显示商品预览效果#表单提交.#筛选与联动.#状态反馈价值:导航增强:LLM知道RFQ配置在意助RFQ托管 围栏约束:LLM知道这个只能做XXX,不能做YYY 规划准确:减少试错,直达标 Browser Use 动探索Monkey Test 遍历 提取能&结构 基于户为剪枝PageI