《A3--张晓江--后训练时代:SRPO通过强化学习提升LLM的跨领域推理能力.pdf》由会员分享,可在线阅读,更多相关《A3--张晓江--后训练时代:SRPO通过强化学习提升LLM的跨领域推理能力.pdf(41页珍藏版)》请在三个皮匠报告上搜索。
1、后训练时代:SRPO强化学习提升LLM跨领域推理能力张晓江 快手Kwaipilot 高级算法专家张晓江快手Kwaipilot 高级算法专家专注于快手代码大模型算法研发,负责大模型预训练、微调及强化学习后训练。围绕RLVR技术提升模型在工具调用、任务规划和自我反思等复杂环境交互能力。成功推动大模型在多个核心场景落地,包括:智能代码生成、智能Oncall系统、AI研发助手以及端到端需求交付自动化,持续探索大模型技术在Coding领域的边界突破。01020304Post training大模型能力跃迁的核心战场SRPO提升模型跨领域推理能力从深度思考到“Auto Think”Kwaipilot代码大
2、模型研发领域落地实践05总结展望Post training大模型能力跃迁的核心战场从 Scaling Pre-training 到 Scaling Test-time Compute核心问题:预训练 Scaling 的瓶颈模型参数增大 预训练边际收益递减生成式方法+参数扩展 性能提升有限新突破点:强化学习驱动的 Post-TrainingRL 与 Self-play 训练范式超越参数量级的 新 Scaling Lawso1 performance smoothly improves with both train-time and test-time computeDeepSeek R1-Ze
3、ro对Post-Training的启发无需监督微调SFT,纯强化学习驱动的强推理模型强化学习可激发模型动态策略调整能力,推动AI从“静态执行”迈向“自主优化”Aha MomentDeepSeek R1的一些启示传统RLHF背景下,SFT通常被认为是不可或缺的一步,其逻辑先用大量人工标注的数据来让模型 初步掌握某种能力(如对话或者语言风格),然后再用RL来进一步优化性能 DeepSeek-R1 系列跳过对于大规模人工标注数据的依赖 打破SFT数据集的依赖,通过强化学习模型自主探索与环境交互,自主探索与利用 类比:初学者在没有老师指导的情况下,通过不断的尝试和错误来掌握一门新的技能。这种自主学习的
4、方式,不仅节省了大量的标注成本;更重要的是,它让模型能够自由地探索解决问题的路径,而不是被预先设定的模式所束缚。DeepSeek R1的一些启示基座模型与数据分布至关重要,基模的潜力决定了强化学习的上限高质量数据分布是稳定训练的基础,重视数据可验证性和动态调控RL-Infra是成功保障长文本推理场景下的特殊挑战,高显存压力,长解码时间、训推共卡/分离训推精度误差超参数调优是制胜需要系统性探索的参数,学习率、KL系数、加权奖励优化、采样数量、强化算法选择SRPO提升模型跨领域推理能力R1 Zero原生GRPO强化学习训练瓶颈与挑战DeepSeek-R1-Zero通过纯强化学习(RL)提升语言模型
5、的跨领域推理能力实际落地面临的问题:跨领域冲突:Math类问题更容易激发模型推理能力,而code类数据模型则倾向于更简单的输出梯度失效:基于Rule Base的奖励策略,GRPO算法依赖于采样组内非零的奖励方差来计算优势。当Group内的 rollout 产生几乎相同的奖励值时,计算得到的优势会接近于零。过早的reward饱和:GRPO 训练在 benchmark 评测中较早遇到了性能瓶颈,奖励也遇到饱和平台期。RL Infra:OOM、耗时长、训练不稳定等问题徒增SRPO-Two Stage TrainingStage 1初始训练阶段仅专注于具有挑战性的数学数据。鼓励扩展 CoT 能力的发展
6、,包括反思性停顿、回溯行为和逐步分解。Stage 2在此阶段,将编码数据引入到训练过程中。利用第一阶段建立的推理基础。除了提升编码能力外,本阶段还旨在从模型中引出程序性思维、递归和工具调用能力。Srpo:A cross-domain implementation of large-scale reinforcement learning on llmJ.https:/arxiv.org/abs/2504.14286模型地址:https:/huggingface.co/Kwaipilot/SRPO-Qwen-32BSRPO-History Resampling(HR)Filter Out Too