当前位置:首页 > 报告详情

陆承镪_自适应强化学习驱动AI搜索Agent对齐在小红书的实践.pdf

上传人: 蓝*** 编号:1270123 2026-06-20 40页 3.60MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
1. **AI搜索范式跃迁**:从关键词搜索(1990s-2010s)到语义搜索+RAG(2020-2023),再到Agentic Search(2024至今),核心能力从词法匹配升级为推理规划+工具调用。 2. **SearchLLM框架**:端到端统一工作流(意图规划→证据选择→答案生成),采用分层奖励体系(门控聚合机制),确保底线约束(事实性/安全性)优先于体验优化,线上A/B测试显示VCR等指标显著提升。 3. **SPARD优化方法**:动态奖励权重(PAWA)与自适应数据重平衡(RADR)解决静态权重导致的异步收敛问题,训练效率提升30%,综合性能超越基线。 4. **推理效率突破**:DOT机制抑制Length Shift现象,推理Token消耗降低40%,结合Outline-Thinker实现结构化高效推理。 5. **未来方向**:多模态搜索、个性化长期记忆、在线自进化RL,推动Agent向"自进化搜索伴侣"演进。
搜索Agent如何进化? 多目标如何平衡? 推理何时该停止?
客服
商务合作
小程序
服务号
折叠