报告预览

A4--孙家正--移动端GUI智能体进展与挑战.pdf

编号：1270067

PDF 33页 8.10MB 下载积分：VIP专享

下载报告请您先登录！

A4--孙家正--移动端GUI智能体进展与挑战.pdf

1、移动端GUI智能体技术初探孙家正复旦大学 CodeWisdom 实验室博士生孙家正复旦大学 CodeWisdom团队博士生毕业于北京理工大学，获硕士学位，专业为网络空间安全。现于复旦大学软件工程实验室（CodeWisdom）攻读博士，导师为彭鑫教授，研究内容为AI原生与云原生系统，包括Agentic System、GUI Agent等。010203 GUI Agent 简介GUI Agent 的“思/忆/看/做”GUI Agent 的落地巧思和现实问题GUIGUI智能体简介智能体简介GUI Agent简介*视频来源：余承东视频号（华为小艺）GUI Agent发展现状*图片来源：LLM-P

2、owered GUI Agents in Phone Automation:Surveying Progress and Prospects自2023年末以来，由大语言模型（LLM）驱动的手机智能体领域经历了爆炸式的快速发展。该领域的发展主要遵循两条并行的技术路线：该领域早期的主流趋势是“不训练，只引导”。研究者们通过设计精巧的指令（Prompt）来指挥一个通用大模型去理解手机界面并执行任务。随着领域发展，为了追求更高性能和可靠性，研究者开始转向专用化训练，利用特定数据集来微调（Fine-tune）模型。移动端移动端GUIGUI智能体的智能体的“思思 /忆忆 /看看 /做做”思|GUI Age

3、nt的智力提升之道基于提示工程的方法（Prompt Engineering Methods）不改变大语言模型的权重，而是利用其强大的通用理解、推理和规划能力，通过精心设计的提示（Prompt）来引导模型完成任务。基于训练的方法（Training-Based Methods）教会一个模型从“看懂”屏幕到直接“做出”动作的端到端能力，更接近传统的机器学习或深度学习范式。思|多智能体协作范式：Mobile-Agent-V2Mobile-Agent-v2（2024,阿里/北交大）提出了一种面向移动设备操作辅助的多智能体架构，该架构由三个智能体组成：规划智能体、决策智能体和反思智能体。该工作解决了单代理

4、架构在处理长序列交织的文本和图像时，移动设备操作助手的导航效果显著下降的问题。实验结果表明，其在任务完成度上相比单一智能体架构提升了30%以上。学术观察多Agent系统的局限性由于智能体数量增加，Mobile-Agent-V2的单步操作速度更慢，导致整体执行效率低；同时，模型幻觉导致的不可靠也会随着任务步骤数的增加而逐渐积累，损害整体任务成功率。*图片来源：Mobile-Agent-v2:Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration思|多智能体协作范式：Mob

5、ile-Agent-EMobile-Agent-E（2025,阿里/北交大）提出了一种可自我进化的分层多智能体框架。该框架由一个管理智能体以及三个下属智能体：操作智能体、动作反思智能体和记录智能体组成。该工作通过将高层规划与低层行动区分开来，在任务完成度上相比此前工作（V2）提升了22%。与V2类似，Mobile Agent的系列工作均采用两阶段规划：首先，一个智能体将用户指令拆解为各个子目标，接下来另一个智能体基于该子目标生成原子操作，并在手机实际执行，不断循环直到所有子目标被完成。这一思路有效的提升了多智能体的表现。学术观察高低维度结合提升任务规划能力思|多智能体协作思考：Fairy V

6、1Fairy（2025,复旦）提出了一种能够在执行任务中持续积累App知识的交互式多智能体手机助手。该框架通过三个核心模块（全局任务计划器、App级任务执行器和App知识学习器）的6个智能体保障了跨应用协作、交互式执行和持续学习的能力。*图片来源：Fairy:Interactive Mobile Assistant to Real-world Tasks via LMM-based Multi-agent实验结果表明，其在用户需求完成率上相比此前工作提升了33%以上。多智能体架构方面的演进？相较于MobileAgent系列工作，Fairy在全局规划中先将用户任务分解到具体的App中再完成后续拆

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（A4--孙家正--移动端GUI智能体进展与挑战.pdf）为本站（蓝色烟花）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。