1、CitywalkCitywalk场景中的场景中的VideoAgentVideoAgent 设计与实践设计与实践演讲人:宋阳目录目录010203040506AI实景对话总体框架VideoAgent 应用Citywalk交互设计AI探店助手Citywalk实战挑战意图指代与记忆Citywalk未来演进提前感知和主动推荐VideoAgent行业观察热点agent介绍01AI实景对话总体框架VideoAgent 应用AIAI实景对话实景对话AI实景对话是OPPO ColorOS16推出的重点系统级AI功能,它让手机秒变“行走的万事通”。用户只需将手机镜头对准目标,无论是餐厅菜单、商品吊牌还是展览说明,
2、轻点屏幕即可触发智能识别,支持连续对话与随时打断,即使在商场嘈杂环境中,也能通过声纹识别精准响应指令。语音识别端点检测声纹识别语音合成语音处理问题拆解通用问题逛街问题重新分流意图识别自建RAG目标检测多路召回MCP 调度图搜及MCP历史记忆关键抽帧用户画像工具调用多模态问答技术链条技术链条02Citywalk交互设计AI探店助手CitywalkCitywalk交互交互xxxCitywalkCitywalk交互交互对于citywalk 意图的轮次,同步传输query和店名意图,异步取回回复结果,并记录对应的userid、recordid和turnnum。对比对比Deep Deep ReSearc
3、hReSearch集成动态推理、自适应规划、多轮信息检索与工具调用能力,最终生成结构化分析报告。Deep Research Agents:A Systematic Examination And Roadmap.对比对比GUI AgentGUI Agent将用户意图映射到UI操作。GUI Agent 实时感知UI信息和手机状态,基于已有知识和记忆进行规划、推理和反思,最后执行操作。LLM-Powered GUI Agents in Phone Automation:Surveying Progress and Prospects.指问结合指问结合先指后问边指边问仅指 仅问 先问后指 仅问的情况
4、识别牌匾面积占比大的店铺,手指点击可以锁定目标店铺更精准。先问后指的情况,会先针对query回复,在语音播报时手指屏幕,会打断处理。关键帧选择关键帧选择点击情况:点击帧就是关键帧,按fps均匀采样后获取最近时刻的帧;语音query情况:VAD 起始时刻附近的帧是关键帧,关键帧通常发生在附近2个Chunk 内;实时打断:TTS 播报过程中,如果用户提问或点击,系统将打断原播报并进入下一轮交互。03Citywalk实战挑战意图指代与记忆意图粒度意图粒度介绍以下这家店/包厢有没有5个人的这是什么/这家店电话多少/可以停车吗店铺通用他们家主要吃什么/排名第一个是什么菜主推菜是什么/有没有适合小朋友的菜
5、菜品情况这家店评分咋样/这家店口味如何这家店环境如何/服务态度好不好评论分数这家店贵吗/4个人吃饭需要多少钱这家店我吃的起吗/什么时候有折扣消费价格P P店铺通用粗粒度意图关注的是当前交互是否属于citywalk,是二分类问题;细粒度意图关注的是用户query的问题类型,是多分类问题,并最终映射到多种样式的上屏卡片。意图识别意图识别TrainSet-image:覆盖餐饮、服务业、娱乐类,负例是通用场景画面;TrainSet-query:基于强模型合成citywalkquery,负例是citywalk 无关问题;TestSet:后训练InternVL4B模型取得95%的准确率,优于闭源大模型fe
6、w-shot效果(83%)记忆回溯记忆回溯当关键帧未出现店名时,根据时间轴倒序回溯历史QA 和历史Caption,避免答非所问。即使用户镜头没有一直对着门匾拍摄,助手也可以根据记忆锚定店铺并给出准确答案。记忆回溯记忆回溯对于点击+单轮query情况,通常回溯到历史qa的上一轮即可,点击帧无需重复识别;对于单轮query情况,通常需要回溯历史caption,找到距离当前时刻最近的店铺;对于多轮query情况,需要对历史qa和历史caption回溯判断。后处理后处理针对个别店名经常识别错误情况,可外挂店名难例RAG 库