当前位置:首页 > 报告详情

4徐志江- 腾讯大规模强化学习训练框架的深度实践与优化.pdf

上传人: 可*** 编号:991590 2025-12-07 23页 3.66MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
全文主要介绍了腾讯大规模强化学习训练框架的实践与优化。关键点如下: 1. 强化学习简介:强化学习通过预训练和强化学习提升模型能力,例如预训练15T tokens后,强化学习几万样本可提升模型能力至79.8分。 2. 强化框架现状:腾讯强化框架支持文生文、图生文等场景,采用PPO、GRPO等算法,使用腾讯混元等模型,性能达到20万+样本/千卡*天。 3. 性能优化:通过显存优化、权重传递优化、训练优化和推理优化提升性能,如显存优化减少碎片,权重传递优化提高速度。 4. 强化踩坑经验:如FSDP与Mcore在seq pack下的loss差异问题,Ray metric collector导致的性能问题等。 5. 未来路线图:包括可维护性、正确性和易用性等方面的持续优化。
"强化学习挑战揭秘" "腾讯框架性能优化秘籍" "强化学习踩坑指南"
客服
商务合作
小程序
服务号
折叠