A4--陈博理--基于强化学习的开放域智能体训练框架和落地实践.pdf

上传人：蓝***

编号：1270072

2026-06-20

PDF 52页 4.24MB

《A4--陈博理--基于强化学习的开放域智能体训练框架和落地实践.pdf》由会员分享，可在线阅读，更多相关《A4--陈博理--基于强化学习的开放域智能体训练框架和落地实践.pdf（52页珍藏版）》请在三个皮匠报告上搜索。

1、基于强化学习的开放域智能体训练框架和落地实践陈博理阿里巴巴通义实验室研究员陈博理阿里巴巴通义实验室研究员负责 Agent Post-training 及 Agentic RL 训练方法的研究与落地，主导高德、阿里云安全等业务场景下的智能体训练方案设计与工程实现。在人工智能与自然语言处理领域具有丰富的学术积累，多项研究成果发表于 ICML、ICLR、ACL、AAAI 等国际顶级学术会议。当前核心研究方向为 Agentic RL（智能体强化学习），聚焦于复杂环境下大模型智能体的自主决策、长程规划与跨任务泛化能力的提升，致力于打通从算法研究到业务落地的全链路。目录CONTENTS010203040

2、5背景介绍ICML 2026：ArenaRL 对比式强化学习案例一：高德地图 Agent案例二：云安全平行沙箱 Agent总结与展望PART 1背景介绍Agent 的技术主线起点ReAct确立思考行动观察循环，至今仍是绝大多数 Agent 的底层架构工程线怎么跑Function Calling MCP Claude Code/OpenClaw 框架发展成熟，许多垂域可以直接复用训练线怎么变强RLHF GRPO 后训练算力追平预训练 RL 成为 Agent 行为优化的主战场两条线并行发展：工程线决定 Agent 能做什么事，训练线决定 Agent 做得多好工程线：Coding Agen

3、t 框架发展成熟以 Claude Code 为代表的 Coding Agent 框架，正在成为业界事实标准统一的 Agent loop：思考调用工具读写文件执行命令，循环推进MCP 协议：标准化 Agent 与工具的通信，新工具即插即用Sub-Agent/Skills/Hooks：任务分发、领域技能、流程编排开箱即用开源生态（OpenCode、OpenClaw）让这套架构人人可用垂直领域可以直接站在成熟引擎上做应用（案例二：云安全平行沙箱 Agent）训练线：开放域 RL 的挑战有标准答案的任务数学推理、代码生成 Ground-truth 奖励信号明确 RL 进展非常快开放域任务

4、出行规划、安全分析没有唯一正确答案解空间巨大，奖励信号无从构造 RL 遇到严重瓶颈如何让 RL 在开放域任务上有效工作？Rubric-based Reward让 LLM Judge 的打分更结构化，但没有解决根本问题：当所有输出都还不错时，绝对打分区分不出谁更好判别崩溃（Discriminative Collapse）PART TWOICML 2026ArenaRL开放域 Agent 的对比式强化学习方法开放域任务案例问题：十一北京到青岛 5 天，2 人，顺道到天津，求海边摄影与美食行程建议。轨迹 A 先 search_train_tickets拿真实班次用班次倒推每日边界摄影深度

5、：搜最佳拍摄时间10 月海鸥是否还在blue hour 机位国庆专项：限流预约、人流预测、是否仍开放行程颗粒到 07:4508:18 高铁 C2005/33 分钟/36 元轨迹 B 搜索关键词堆砌：青岛+天津摄影美食沿海混在同一 query 摄影 tips 停在通用层：最佳时间长焦拍海鸥没具体时段没查国庆人流/限流/预约行程表只有时间段，没有班次号、价格、用时开放域 Agent 任务的典型样态：两份方案都不算错，训练时需要告诉模型哪种更好核心问题：判别崩溃现有方法（如 GRPO）依赖 LLM-as-a-Judge 给每条输出轨迹打绝对分训练早期有效：输出质量参差不齐，好坏一

6、目了然训练后期：输出质量趋同，分数压缩到一个窄区间判别崩溃（Discriminative Collapse）：RL 优化方向由噪声主导，训练停滞甚至退化核心问题：判别崩溃信号不同轨迹之间的差异同一 query 采样 N 条轨迹，各打一次分：=0.82 =0.87 =0.89 N=0.91标准差 group 0.03 分数集中在 0.80.9 区间噪声Judge 的打分抖动同一条轨迹，让 Judge 独立打 M 次分：=0.87,0.89,0.91,0.88标准差 noise 0.02 每次打分都不一样信噪比=0.03/0.02=1.5 分差和抖动差不多大，分不清谁真的更好结果：Reward

A4--陈博理--基于强化学习的开放域智能体训练框架和落地实践.pdf

相关报告