《A4--陈博理--基于强化学习的开放域智能体训练框架和落地实践.pdf》由会员分享,可在线阅读,更多相关《A4--陈博理--基于强化学习的开放域智能体训练框架和落地实践.pdf(52页珍藏版)》请在三个皮匠报告上搜索。
1、基于强化学习的开放域智能体训练框架和落地实践陈博理 阿里巴巴通义实验室研究员陈博理阿里巴巴通义实验室研究员负责 Agent Post-training 及 Agentic RL 训练方法的研究与落地,主导高德、阿里云安全等业务场景下的智能体训练方案设计与工程实现。在人工智能与自然语言处理领域具有丰富的学术积累,多项研究成果发表于 ICML、ICLR、ACL、AAAI 等国际顶级学术会议。当前核心研究方向为 Agentic RL(智能体强化学习),聚焦于复杂环境下大模型智能体的自主决策、长程规划与跨任务泛化能力的提升,致力于打通从算法研究到业务落地的全链路。目录CONTENTS010203040
2、5背景介绍ICML 2026:ArenaRL 对比式强化学习案例一:高德地图 Agent案例二:云安全平行沙箱 Agent总结与展望PART 1背景介绍Agent 的技术主线起点ReAct确立思考 行动 观察循环,至今仍是绝大多数 Agent 的底层架构工程线怎么跑Function Calling MCP Claude Code/OpenClaw 框架发展成熟,许多垂域可以直接复用 训练线怎么变强RLHF GRPO 后训练算力追平预训练 RL 成为 Agent 行为优化的主战场 两条线并行发展:工程线决定 Agent 能做什么事,训练线决定 Agent 做得多好 工程线:Coding Agen
3、t 框架发展成熟以 Claude Code 为代表的 Coding Agent 框架,正在成为业界事实标准统一的 Agent loop:思考 调用工具 读写文件 执行命令,循环推进MCP 协议:标准化 Agent 与工具的通信,新工具即插即用Sub-Agent/Skills/Hooks:任务分发、领域技能、流程编排开箱即用开源生态(OpenCode、OpenClaw)让这套架构人人可用 垂直领域可以直接站在成熟引擎上做应用(案例二:云安全平行沙箱 Agent)训练线:开放域 RL 的挑战 有标准答案的任务 数学推理、代码生成 Ground-truth 奖励信号明确 RL 进展非常快 开放域任务
4、 出行规划、安全分析 没有唯一正确答案 解空间巨大,奖励信号无从构造 RL 遇到严重瓶颈如何让 RL 在开放域任务上有效工作?Rubric-based Reward让 LLM Judge 的打分更结构化,但没有解决根本问题:当所有输出都还不错时,绝对打分区分不出谁更好 判别崩溃(Discriminative Collapse)PART TWOICML 2026ArenaRL开放域 Agent 的对比式强化学习方法开放域任务案例问题:十一北京到青岛 5 天,2 人,顺道到天津,求海边摄影与美食行程建议。轨迹 A 先 search_train_tickets拿真实班次 用班次倒推每日边界 摄影深度
5、:搜最佳拍摄时间10 月海鸥是否还在blue hour 机位 国庆专项:限流预约、人流预测、是否仍开放 行程颗粒到 07:4508:18 高铁 C2005/33 分钟/36 元轨迹 B 搜索关键词堆砌:青岛+天津 摄影 美食 沿海混在同一 query 摄影 tips 停在通用层:最佳时间 长焦拍海鸥 没具体时段 没查国庆人流/限流/预约 行程表只有时间段,没有班次号、价格、用时开放域 Agent 任务的典型样态:两份方案都不算错,训练时需要告诉模型哪种更好 核心问题:判别崩溃现有方法(如 GRPO)依赖 LLM-as-a-Judge 给每条输出轨迹打绝对分训练早期有效:输出质量参差不齐,好坏一
6、目了然训练后期:输出质量趋同,分数压缩到一个窄区间 判别崩溃(Discriminative Collapse):RL 优化方向由噪声主导,训练停滞甚至退化核心问题:判别崩溃信号不同轨迹之间的差异同一 query 采样 N 条轨迹,各打一次分:=0.82 =0.87 =0.89 N=0.91标准差 group 0.03 分数集中在 0.80.9 区间噪声Judge 的打分抖动同一条轨迹,让 Judge 独立打 M 次分:=0.87,0.89,0.91,0.88标准差 noise 0.02 每次打分都不一样信噪比=0.03/0.02=1.5 分差和抖动差不多大,分不清谁真的更好结果:Reward