1、Alipay xUI 多模态智能交互引擎赵利超(鬼畏)支付宝终端基础技术蚂蚁终端体验科技大会/01/02/03缘起 当下 探索-AI Agent 技术发展历程-移动端 Agent 应用场景-支付宝对话式 Agent 应用-支付宝跨设备 Agent 互联-支付宝 Agent 应用的问题挑战-支付宝 Agent 应用的关键技术-Alipay xUI 多模态智能交互引擎-生成式渲染技术-实时音视频技术-编解码混合技术-流式网络传输技术-智能体互联技术-多模态运行时技术-不只能问能答,还要有手有脚-通用 Agent 自主执行的技术现状-移动端自主执行的共性挑战-我们在 Agent 自主执行上的探索AI
2、 Agent 技术发展历程Agent 探索与实践(2024)Agent 实验性探索(2023)Agent 业务高速发展(20252026)侧重大模型基础能力场景:信息检索代表产品能力演进Chatbot 技术相继成熟场景:人机对话、内容生成编码效率深度研究实用工具AI+服务Agent 框架Prompt 工程Agent 平台训练框架部署架构模型微调LLM OpsRAG 工程Multi AgentWorkflow推理优化AgenticMCP 市场A2A 协作Agnet 初步落地-Agent 技术突破-Agent 场景应用移动端 Agent 应用场景最先落地 C 端的,是互联网业务自身的演进通用助手A
3、I 对话AI 搜索内容娱乐AI 内容生成AI 互动陪伴垂直领域AI 效率工具AI 生活服务AI 医疗教育支付宝对话式 Agent 应用通过对话式 Agent 交互,升级服务检索方式,业务转化提升&用户体验提升搜索推荐场景出行酒旅场景医疗健康场景财富保险场景政企民生场景支付宝跨设备 Agent 互联通过跨设备 Agent 互联,升级生态合作模式,业务覆盖提升&科技体验提升支付+智慧出行场景、智能穿戴场景支付宝 Agent 应用的问题挑战全行业 Agent 产品化快跑:大模型还不够美好 vs 工程体系的滞后性富文本-Markdown?Html?-图形 Canvas?动效 Mars?生成式渲染增强W
4、ebSocket-WebRTC-GRPC over H3?Media over QUIC Transport?网络传输与编解码A2A over IPC?身份可信、行为可信、数据安全、重试/幂等、延时/缓存 多端可信通信协议硬件碎片化 Mic/Speaker/Camera/Sensor、端云难协同 3A/VAD/ASR/TTS音视频实时交互支付宝 Agent 应用的关键技术PRD-DSL-Assemble-Layout-Compose-Drawcall,未来 Page Only?View Only?交互方式与研发方式,在悄然变化CPU、GPU、IO、MEM.网络、边云、框架、运行时、绘制、执行
5、系统权限、数据隐私 时效性鲁棒性安全性通用性Alipay xUI 多模态智能交互引擎生成式渲染技术实时音视频技术多模态运行时技术编解码混合技术流式网络传输技术智能体互联技术AI 云服务/AI 大模型AI 场景/AI 应用AI 生态多端/多设备人机交互,GUI-CUI-xUI生成式渲染技术架构图完整 Markdown 语法(Android、iOS、Harmony)混合 HTML 标签渲染自定义 CSS 样式扩展分场景定制化样式集场景多重流式渲染模式(流式全量、流式增量、全渲染)原生式富文本交互(点选、复制、表情、超链.)实时音视频技术架构图场景实时多模态控制(三元组控制、动态分片、打断恢复、会话
6、乱序重排)全流式传输与双工通话(单双工适应、同异步混合)硬件性能和鲁棒性优化(碎片化适配、信号抢占/同步)离在线联合推理场景化效果增强编解码混合技术架构图端到端生成式编码(文本/图片压缩率提升60%+)自适应损失偏好对齐(主观损失偏好、自适应损伤修复)端云协同 AI 修复(端侧模型计算结合后端算法、渲染前端侧画质增强)场景流式网络传输技术架构图场景全双工多模态融合RPC 语义化接入A2A/MCP 高阶协议AI 场景网络体验(QUIC、流优先级、切换保持)全平台传输协议(gRPC/Websocket、AppNativ