当前位置:首页 > 报告详情

A3--张晓江--后训练时代:SRPO通过强化学习提升LLM的跨领域推理能力.pdf

上传人: 可*** 编号:991635 2025-12-07 41页 15.78MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
根据标记内容,全文主要内容概括如下: - **后训练时代强化学习**:通过SRPO强化学习提升LLM跨领域推理能力,实现模型在复杂环境中的交互能力。 - **核心突破**:从Scaling Pre-training到Scaling Test-time Compute,解决预训练边际收益递减问题。 - **DeepSeek R1-Zero**:跳过SFT,纯强化学习驱动强推理模型,节省标注成本,促进模型自主探索。 - **SRPO提升模型能力**:通过多阶段训练和History Resample技术,提升模型反思、回溯和分步推理能力。 - **AutoThink模型**:实现模型自主思考能力,从深度思考到“Auto Think”。 - **未来展望**:持续扩展强化学习,探索端到端Agent RL,优化RL Infra。 关键点: - SRPO提升LLM跨领域推理能力。 - DeepSeek R1-Zero节省标注成本,促进模型自主探索。 - 多阶段训练和History Resample技术提升模型能力。 - AutoThink模型实现模型自主思考。 - 未来将强化学习扩展至端到端Agent RL。
"双列捏合新功能,体验升级!" "高频用户福利,双列新功能来袭!" "代码大模型新突破,AI助手更智能!"
客服
商务合作
小程序
服务号
折叠