1、用AI操作GUI,飞猪以GUI Agent重塑流程自动化与交付效率飞猪高级技术专家 梁筱武01GUI自动化遇到的挑战与AI带来的新机会02GUI Agent技术架构03GUI Agent关键技术04落地案例:航班值机流程自动化05当前不足与未来演进方向GUI自动化遇到的挑战与AI带来的新机会GUI自动化遇到的挑战:界面变动即导致脚本失效,开发脚本效率低控件依赖强&维护成本高传统自动化依赖XPath或控件ID等定位元素,界面微调即导致脚本失效泛化能力弱脚本无法跨端复用,同一业务在不同端需要重新开发脚本,资源浪费严重智能性弱纯静态,难以应对弹窗、网络异常、页面跳转等动态场景,缺乏环境感知能力每次界
2、面变更需人工排查修复,平均耗时超2小时,迭代效率低下人类如何完成GUI操作:遵循感知-决策-执行-校验闭环看(Perceive)识别界面上的文字、按钮、输入框等想(Reason)结合任务目标判断当前状态及下一步动作通过点击、输入、滑动等完成操作做(Act)检查(Check)通过某种方式检验操作是否正确GUI Agent:融合了多模态大模型、OCR辅助、决策自主规划与设备控制的端到端智能系统核心能力视觉感知屏幕图像解析,从界面截图中提取可视元素布局元素定位,基于像素特征识别按钮、输入框等控件动态适应,应对界面尺寸、主题或风格的变化语义理解意图识别,理解用户指令中的操作目标和语义上下文文本分析,解
3、析界面上的文字内容以判断功能含义上下文推理,结合历史操作理解当前语义意图规划与执行操作生成,规划点击、输入、滑动等设备交互行为坐标映射,将逻辑操作转换为屏幕实际坐标位置行为编排执行,按顺序执行多步任务实现复杂流程自动化状态反馈反馈校验,通过执行后界面验证操作是否成功错误恢复,检测异常状态并尝试重新执行或调整策略自优化机制,根据历史表现持续改进决策路径跨端支持统一接口,屏蔽iOS、Android、Web、Windows等各端差异设备兼容,适配不同分辨率与版本的终端强鲁棒性容错处理,面对遮挡、弹窗干扰仍能保持稳定运行变化检测,自动识别界面更新并调整规划GUI Agent vs GUI自动化:不依赖
4、脚本,通过视觉+语义双重理解任务驱动GUI操作,具备强鲁棒性摆脱控件依赖基于屏幕视觉信息定位元素,无需控件ID或XPath,界面变更不影响执行稳定性自然语言任务结合OCR与多模态大模型,同时理解界面内容与用户自然语言意图,实现精准操作决策强鲁棒性能力适应不同终端与动态场景,对弹窗、加载延迟等异常具备天然容错与恢复能力GUI Agent技术架构基于ReAct构建思考行动观察迭代的闭环流程感知驱动决策通过截图与OCR实时感知界面状态,结合用户指令(上下文)和历史记忆,由多模态大模型生成下一步动作意图动作精准执行规划引擎输出结构化操作指令,经UI-Tars模型定位坐标,通过ADB、WebDriver
5、、WindowsDriver等在设备端完成点击、输入等操作反馈闭环迭代执行后自动截屏并验证结果,将新状态回传规划引擎,实现动态调整与试错式推进,直至任务完成基于ReAct构建思考行动观察迭代的闭环流程五大核心模块协同工作:任务规划、视觉定位、OCR辅助、记忆系统、客户端集成智能自动化任务规划基于Qwen2.5-VL-72B大模型进行多轮推理,实现复杂任务分解通过精细化Prompt及上下文,提升任务准确性视觉定位采用UI-Tars模型,结合外观+功能双维度识别界面元素通用GUI控件准确率超99%,适应动态界面文本识别集成Paddle OCR技术,高效提取页面中的可见文本内容再训练增强模型,提升模
6、糊、小字等复杂场景识别率状态感知准确识别页面当前状态,如成功或不如期望实时捕捉错误提示信息,用于流程中断与异常处理决策执行验证通过识别结果判断操作是否生效,确保流程正确推进支持结果回传与断言校验,提升全流程可靠性鲁棒控制融合多模型输出,降低单一模块失效对整体流程的影响自动恢复机制结合上下文理解,应对界面变化与网络延迟五大核心模块协同工作:任务规划、视觉定位、OCR辅助、记忆系统、客户端集成GUI Agent关键技术精细化Prompt设计、上下文增强与结构化动作空间,提升大模型理解准确性角色明确化在Prompt中明确定义Agent为GUI操作专家,限定其行为边界与任务目标领域上下文注入1、融合历