《陆承镪_自适应强化学习驱动AI搜索Agent对齐在小红书的实践.pdf》由会员分享,可在线阅读,更多相关《陆承镪_自适应强化学习驱动AI搜索Agent对齐在小红书的实践.pdf(40页珍藏版)》请在三个皮匠报告上搜索。
1、小红书AI 搜索生成陆承镪自适应强化学习驱动AI搜索Agent对齐在小红书的实践 Part 00.Part 00.Part 01.Part 01.Part 02.Part 02.Part 03.Part 03.AI搜索的范式跃迁与对齐挑战搜索对齐的目标空间自适应RL优化方法论搜索Agent的推理空间Part 04.Part 04.走向下一代 Agentic SearchPart 00全景地图:全景地图:AI搜索的范式跃迁与对齐挑战搜索的范式跃迁与对齐挑战从关键词到从关键词到Agent:搜索正在经历第三次范式革命:搜索正在经历第三次范式革命关键词搜索关键词搜索1990S2010S核心能力核心能力
2、词法匹配+链接排序用户体验用户体验用户自行筛选、拼接信息代表产品代表产品Google、百度语义搜索语义搜索+RAG20202023核心能力核心能力向量检索+生成摘要用户体验用户体验自动整合多源,一站式答案代表产品代表产品New Bing、早期PerplexityAgentic Search2024PRESENT核心能力核心能力推理规划+工具调用+多轮迭代用户体验用户体验主动理解意图,自主完成复杂任务代表产品代表产品Perplexity Deep Research;Google AI Mode;小红书 SearchLLM每一次范式跃迁,都是每一次范式跃迁,都是机器承担更多认知负担机器承担更多认知
3、负担的过程的过程 从用户筛选,到机器整合,再到从用户筛选,到机器整合,再到Agent代理代理搜索搜索Agent对齐的独特挑战:与通用对齐的独特挑战:与通用LLM对齐的关键差异对齐的关键差异维度维度通用通用LLM对齐对齐搜索搜索AGENT对齐对齐事实锚点事实锚点依赖模型内部知识,缺乏外部验证锚点有检索文档作为外部证据,可做可验证的事实核查有检索文档作为外部证据,可做可验证的事实核查误差传播误差传播单模型端到端生成,错误不会跨模块累积意图理解意图理解检索检索排序排序生成,级联管线中误差逐级放大生成,级联管线中误差逐级放大反馈信号反馈信号主要依赖人工标注/LLM Judge,隐式信号较稀疏点击、停留
4、、跳出、改写等行为信号密度远高于通用场景点击、停留、跳出、改写等行为信号密度远高于通用场景时效性时效性参数知识相对静态,对时效性要求较低搜索结果需反映最新信息,知识动态变化带来持续对齐压力搜索结果需反映最新信息,知识动态变化带来持续对齐压力优化复杂度优化复杂度多维目标可通过统一偏好建模,目标间耦合度较低事实性与丰富度天然冲突,安全底线与用户体验需门控解耦事实性与丰富度天然冲突,安全底线与用户体验需门控解耦小红书小红书AI搜索失败归因揭示:多维目标冲突是核心痛点搜索失败归因揭示:多维目标冲突是核心痛点失败类型分布失败类型分布三大核心需求三大核心需求R1 鲁棒性鲁棒性面对模糊Query、冲突证据时
5、的稳健性,确保系统在复杂输入下不崩溃。R2 底线保证底线保证事实性、安全性、逻辑性的硬约束,这是AI搜索不可逾越的红线。R3 用户对齐用户对齐前置重点、减少冗余、符合搜索场景偏好,提供极致的用户体验。核心矛盾:这三类需求之间存在天然张力核心矛盾:这三类需求之间存在天然张力如何在如何在RL训练中同时优化?训练中同时优化?Part 01坐标一:坐标一:What to Align搜索对齐的目标空间搜索对齐的目标空间SearchLLM构建了端到端的生成搜索统一工作流构建了端到端的生成搜索统一工作流端到端工作流端到端工作流Step 1:意图规划意图规划(Intent Planning)深度解析复杂Que
6、ry,生成多路检索策略与查询词Step 2:证据选择证据选择(Evidence Selection)从海量召回文档中,精准筛选高优、无冲突的支撑信息Step 3:答案生成答案生成(Answer Generation)综合优选证据,生成结构化、高可读性的最终回复三个统一的核心价值三个统一的核心价值统一模型统一模型用单一的大语言模型(SearchLLM)替代了传统搜索架构中繁杂的多个独立小模型流水线,大幅降低系统维护成本。统一目标统一目标通过强化学习(RL),将检索、排序、生成等原本割裂的子任务目标,在端到端层面实现全局对齐。统一体验统一体验彻底消除传统模块间的级联误差(Cascading Err