4徐志江- 腾讯大规模强化学习训练框架的深度实践与优化.pdf

上传人：可***

编号：991590

2025-12-07

PDF 23页 3.66MB

《4徐志江- 腾讯大规模强化学习训练框架的深度实践与优化.pdf》由会员分享，可在线阅读，更多相关《4徐志江- 腾讯大规模强化学习训练框架的深度实践与优化.pdf（23页珍藏版）》请在三个皮匠报告上搜索。

1、演讲嘉宾：徐志江腾讯大规模强化学习训练框架的落地实践实践与优化演讲嘉宾：徐志江演讲题目演讲题目0 1强化简要介绍强化简要介绍0 2腾讯强化框架现状腾讯强化框架现状0 3强化框架性能优化强化框架性能优化0 4强化踩坑经验强化踩坑经验0 5Road MapRoad Map0 1 强化简要介绍强化简要介绍什么是强化pre-trainmid-trainSFT强化-语义理解-Language representation-Cold start for RL-Basic chat-Reasoning:强壮大脑-Agentic：大脑加手足-Long context-Domain data,e.g.STEMP

2、ost train-预训练决定了模型的能力上限-强化学习充分发挥了模型的能力，打开上限！强化极大提升了模型能力Scaling law in inference-Pretrain 15T tokens:0分 39.2分-RL 几万样本（？B tokens）：39.2 79.8分强化框架的挑战：过程复杂、速度慢、框架复杂强化框架的挑战：过程复杂、速度慢、框架复杂强化学习是一个复杂的过程：多阶段：推理后处理训练多模型参与强化学习算法精度敏感，超参敏感强化学习的速度十分慢：pretraining one step 10s，RL training one step 1800s 强化学习框架需

3、要囊括推理框架+训练框架+算法数据流实现0 2 腾讯强化框架现状腾讯强化框架现状强化框架现状强化框架现状功能：场景：文生文、图生文算法：PPO、GRPO、DAPO、自研算法模型：腾讯混元、Qwen、Deepseek性能：腾讯混元旗舰模型 20万+样本/千卡*天0 3 强化框架性能优化强化框架性能优化主要性能优化点-显存：训推切换时显存释放是否彻底-权重传递优化：复杂度&性能的折中-训练优化-推理优化显存优化-Torch显存碎片导致实际占用远大于理论占用 torch expandable C+API-NCCL group buffer nccl group destroy and re-co

4、nstruct训推权重传递优化挑战：-业务逻辑复杂，容易出错-MoE模型参数数量巨大，逐个传递速度慢方案：-trainer选择master收集所有参数，再broadcast给所有rollout-Mbridge-flatten(bucket)：参数分桶传输，减少次数、增大单次通信量结果：几百B模型20秒内传递完成训练优化l Kernel fusionFuse-MoE、Group-Gemm.l 模型并行DeepEP、PP&PP overlap l Activation offloading system-prefetch:torch meta device record&replay-GPU

5、 Direct Storage推理优化框架支持的推理引擎-vLLM-SGLang-TRT-LLM 推理引擎：-Fp8:+100%-DP attention+EP:省50%kv cache-MTP:+70%长文训练时的长尾优化推理长尾优化问题：-强化场景下，每个request的response长度分布极其不均(80%的response 8K,20%16k),导致gpu idle浪费(见右图红色实线框)解法-高并发多线程/多协程-样本级隔离采样，自动最大并发度控制防止preempt发生-global observer:决定何时停止推理采样-插件式实现，方便后续升级、开源效果-Early stop

6、：端到端35%提速-优化模式：单topic端到端可额外提10%15%其他框架特性可维护性可维护性 -Patch开发-性能profiler-Memory analyzer正确性正确性 -完善CI test matrix+weekly long run -Bitwise续训精度（无随机性）-初始PPO-KL、REF-KL为0易用性易用性 -完善log：log含再次复现实验的config、代码commit0 4 强化踩坑经验强化踩坑经验FSDP与Mcore在seq pack下的l

4徐志江- 腾讯大规模强化学习训练框架的深度实践与优化.pdf

相关报告