A3--蒋文嘉--驱动GUI智能体从智能化到高效化的实践探索.pdf

编号:710764 PDF 44页 7.32MB 下载积分:VIP专享
下载报告请您先登录!

A3--蒋文嘉--驱动GUI智能体从智能化到高效化的实践探索.pdf

1、蒋文嘉西湖大学 AGI 实验室QECON专用目录CONTENTSLLM与Agent背景0102现阶段难点与挑战GUI智能体 AppAgent03降本增效的 AppAgentX04QECON专用基于LLM的Agent传统 LLM 与人进行简单交互(单一环境交互)1.可以与环境有限互动,强依赖prompt2.能完成简单的问答任务,无法处理复杂的多模态数据Agent 具备感知与行动能力(与环境持续交互)1.可以循环的完成对环境的感知,并作出反应2.自主规划、反思、决策和执行QECON专用比较维度LLM 模型Agents知识来源仅限于训练数据中的内容,无法访问外部实时信息。通过集成外部工具和系统,扩展

2、了知识获取能力。交互与上下文管理基于单轮查询,不具备会话或上下文管理能力。可以管理会话历史,支持多轮推理与复杂任务处理。工具集成能力本身不具备工具调用机制,需用户额外设计。原生支持工具集成,能够调用各种工具执行任务。逻辑与推理能力没有原生逻辑层,需通过提示词或外部框架设计逻辑。内建认知架构,支持链式思维(CoT)、反思-行动(ReAct)等推理框架。LLM 模型 vs.AgentQECON专用Agent架构Google AI Agent 白皮书QECON专用AI 智能体的演进决策感知执行AI Agent 是基于大语言模型(LLM)能感知环境并自主决策、采取行动以实现目标的自主系统,由传感器、控

3、制中心等核心组件构成,可在物理或数字环境中运行,通过接收用户输入、感知环境、决策规划、执行动作来改变环境。QECON专用Agent需求与挑战从理想到现实,我们还缺少什么?近年来,AI Agent 技术快速发展,从 LLM 问答到自主执行任务。然而,现实中的 AI Agent仍远不如人类期待。大家想象中的Agent 强自主性 持久记忆 灵活适应复杂任务然而,目前多数智能体仍是增强版Chatbot,仅能完成静态指令,而无法自主学习或适应环境变化。学界和业界的挑战?缺乏长期记忆和规划能力?无法处理动态变化的任务?推理计算成本高学术界探索新算法提升智能性,而企业则聚焦如何落地应用,如办公自动化、智能客

4、服等。QECON专用Agent路线的异同VS类人操作通用性强AppAgentXWebVoyagerGUI Agent高效开发者友好ManusApple IntelligenceAPI Agent与其为不同场景指定不同的工具,不如让Agent学会使用现有的所有软件。与其为不同场景指定不同的工具,不如让Agent学会使用现有的所有软件。QECON专用Why GUI?自然语言与图形界面的桥梁:GUI 作为 Agent 行为的“输入输出”对象,使 LLM 能将语言描述映射为图形操作。用户行为习惯迁移:GUI 承载了人类熟悉的操作范式(点击、滑动、切换),易于模拟与模仿。高可解释性与低歧义性:图形界面中

5、控件具备语义标签与结构布局,有利于 Agent 进行目标定位与动作执行。QECON专用智能化的挑战解析LLM的输出User:I would like to play music,please tell me how to do it.LLM:.need to click the play button in the bottom right corner of the screen to play it and.QECON专用 Tap(element:int)Long_press(element:int)Swipe(element:int,direction:str,dist:str)Text

6、(text:str)Back()Exit()动作空间的设计QECON专用AppAgent:Multimodal Agents asSmartphone Users(CHI 25)QECON专用QECON专用AppAgent DemoQECON专用AppAgent DemoQECON专用如何让屏幕内容更高效地转化为LLM可理解的信息?传统的 AppAgent 使用 纯 DOM 树结构 实现元素定位:优点:结构清晰,解析快速,适用于规则化应用场景 局限:对动态布局和图层渲染敏感,缺乏语义理解能力AppAgent V2 引入增强方案:结构化解析+OCR 检测,融合视觉与语义信息,提高感知鲁棒性与适应

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(A3--蒋文嘉--驱动GUI智能体从智能化到高效化的实践探索.pdf)为本站 (可不可以) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠