1、移动端GUI智能体技术初探孙家正复旦大学 CodeWisdom 实验室 博士生孙家正复旦大学 CodeWisdom团队 博士生毕业于北京理工大学,获硕士学位,专业为网络空间安全。现于复旦大学软件工程实验室(CodeWisdom)攻读博士,导师为彭鑫教授,研究内容为AI原生与云原生系统,包括Agentic System、GUI Agent等。010203 GUI Agent 简介GUI Agent 的“思/忆/看/做”GUI Agent 的落地巧思和现实问题GUIGUI智能体简介智能体简介GUI Agent简介*视频来源:余承东 视频号(华为小艺)GUI Agent发展现状*图片来源:LLM-P
2、owered GUI Agents in Phone Automation:Surveying Progress and Prospects自2023年末以来,由大语言模型(LLM)驱动的手机智能体领域经历了爆炸式的快速发展。该领域的发展主要遵循两条并行的技术路线:该领域早期的主流趋势是“不训练,只引导”。研究者们通过设计精巧的指令(Prompt)来指挥一个通用大模型去理解手机界面并执行任务。随着领域发展,为了追求更高性能和可靠性,研究者开始转向专用化训练,利用特定数据集来微调(Fine-tune)模型。移动端移动端GUIGUI智能体的智能体的“思思 /忆忆 /看看 /做做”思|GUI Age
3、nt的智力提升之道基于提示工程的方法(Prompt Engineering Methods)不改变大语言模型的权重,而是利用其强大的通用理解、推理和规划能力,通过精心设计的提示(Prompt)来引导模型完成任务。基于训练的方法(Training-Based Methods)教会一个模型从“看懂”屏幕到直接“做出”动作的端到端能力,更接近传统的机器学习或深度学习范式。思|多智能体协作范式:Mobile-Agent-V2Mobile-Agent-v2(2024,阿里/北交大)提出了一种面向移动设备操作辅助的多智能体架构,该架构由三个智能体组成:规划智能体、决策智能体和反思智能体。该工作解决了单代理
4、架构在处理长序列交织的文本和图像时,移动设备操作助手的导航效果显著下降的问题。实验结果表明,其在任务完成度上相比单一智能体架构提升了30%以上。学术观察 多Agent系统的局限性由于智能体数量增加,Mobile-Agent-V2的单步操作速度更慢,导致整体执行效率低;同时,模型幻觉导致的不可靠也会随着任务步骤数的增加而逐渐积累,损害整体任务成功率。*图片来源:Mobile-Agent-v2:Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration思|多智能体协作范式:Mob
5、ile-Agent-EMobile-Agent-E(2025,阿里/北交大)提出了一种可自我进化的分层多智能体框架。该框架由一个管理智能体以及三个下属智能体:操作智能体、动作反思智能体和记录智能体组成。该工作通过将高层规划与低层行动区分开来,在任务完成度上相比此前工作(V2)提升了22%。与V2类似,Mobile Agent的系列工作均采用两阶段规划:首先,一个智能体将用户指令拆解为各个子目标,接下来另一个智能体基于该子目标生成原子操作,并在手机实际执行,不断循环直到所有子目标被完成。这一思路有效的提升了多智能体的表现。学术观察 高低维度结合提升任务规划能力思|多智能体协作思考:Fairy V
6、1Fairy(2025,复旦)提出了一种能够在执行任务中持续积累App知识的交互式多智能体手机助手。该框架通过三个核心模块(全局任务计划器、App级任务执行器和App知识学习器)的6个智能体保障了跨应用协作、交互式执行和持续学习的能力。*图片来源:Fairy:Interactive Mobile Assistant to Real-world Tasks via LMM-based Multi-agent实验结果表明,其在用户需求完成率上相比此前工作提升了33%以上。多智能体架构方面的演进?相较于MobileAgent系列工作,Fairy在全局规划中先将用户任务分解到具体的App中再完成后续拆