李龙飞-性能驱动的大模型架构探索——网络架构及推理架构.pdf-三个皮匠报告

1、ML-SummitML-Summitwww.cpp-www.ml-summit.orgwww.gosim.orgwww.pm-summit.orgML-SummitML-SummitML-SummitML-SummitML-SummitML-Summit李李龙龙飞飞蚂蚂蚁蚁资资深深算算法法专专家家在蚂蚁工作十年，主要研究方向包括：逻辑学习，因果学习，自动学习，大模型等方向，在NeurIPS，ICML，KDD，SIGIR等会议上发表论文70余篇余篇，主导参与了蚂蚁内部的多个核心平台和项目，参与蚂蚁百灵大模型的开发，主导大模型离线推理框架flood开发：https:/ 蚂蚁集团资深算法专家ML-

2、SummitML-Summit蚂蚁大模型技术：聚焦应用场景，做专业、好用、可靠的行业应用大模型规模效率可信ScaleEfficiencyTrustworthinessML-SummitML-SummitLLM 性能需求训练后训练预训练RL推理评测样本合成在线服务训练端预训练对算力的需求巨大，需要高效的算法框架和训练框架来进行支持。Test time scaling 的发展，推高了后训练和 RL的重要性，在训练端对推理性能的诉求也变的更强烈。推理端在模型开发过程中需要大量的评测和合成样本，资源消耗巨大，但这些场景对 ttft 不敏感，更关注于整个系统的吞吐。RL系统对于推理的需求较高，同样更在乎

3、吞吐。ML-SummitML-Summit01.大模型训练中的架构选择和框架对齐02.更高效的 attention 机制探索03.高效离线推理框架-flood目录ML-SummitML-Summit大模型训练中的架构选择和框架对齐-Ling-lite&plus01ML-SummitML-SummitLing-lite&plus 概览 Ling-Lite:16.8B 激活 2.8B Ling-plus:290B 激活 28.8B Ling-max:？（WIP）预训练：9T 高质量语料后训练：数百万指令数据首个在非 Hopper 架构加速卡上预训练的 300B MoE 模型跨平台预训练无缝切

4、换，Loss 误差小于0.1%性能对齐同尺寸下 SOTA 模型如 qwen2.5 72B、ds v2.5、llama 3.1 70B 等更好的工具使用BFCL_v2&TevalMoE 架构跨平台训练SOTA 性能（同尺寸）ML-SummitML-SummitMoE 架构From DeepSeekMoE整体架构参考 DeepSeekMoELing-lite：64 个专家激活 6 个，共享 2 个Ling-plus：64 个专家激活4个，共享 1 个引入 NormHead 提升训练稳定性随机路由 warmup 保证训练初期稳定超参数（LR/BS）在不同 FLOPs 下存在最优设置区间对 Dens

5、e/MoE 架构，LR/BS 均服从对数线性关系模型高矮胖瘦，对最优 BS/LR 影响不大数据分布的小范围调整，对最优 BS/LR 影响不大MoE scaling law：超参设置、架构选择、训练监控的标准Loss2FLOPs 曲线决定了模型架构的“效率”对数反比函数具有更高的Loss外推拟合精度效率杠杆：同 Loss 下，MoE 激活 FLOPs 与 dense 的比值Ling MoE 架构在不同 FLOPs 下有 3-4 倍的效率杠杠ML-SummitML-Summit跨平台训练对齐DLRover：跨平台部署训练框架DeepSpeed、Megatron-LM、Mindspeed 等XPUT

6、imer：轻量性能监控与训练诊断Pcache：全闪存分布式缓存系统DTM：跨集群海量数据/CKPTs 同步Flood：高性能离线批量推理框架跨平台基础算子对齐linear、matmul 等分布式训练框架对齐micro batch size修复Router TP修复NormHead修复NormHead Grad修复.训练时 Loss 尖刺跟模型状态、数据状态、硬件稳定性等都有关系Loss 尖刺调过与重试机制Grad 尖刺处理机制小模型 loss/评测探针机制跨平台训练与监测算子/框架对齐训练稳定性ML-SummitML-Summit更高效的 attention 机制探索-线性 attention

李龙飞-性能驱动的大模型架构探索——网络架构及推理架构.pdf

相关报告