当前位置:首页 > 报告详情

李龙飞-性能驱动的大模型架构探索——网络架构及推理架构.pdf

上传人: 哆哆 编号:631136 2025-04-19 33页 12.71MB

1、ML-SummitML-Summitwww.cpp-www.ml-summit.orgwww.gosim.orgwww.pm-summit.orgML-SummitML-SummitML-SummitML-SummitML-SummitML-Summit李李龙龙飞飞 蚂蚂蚁蚁资资深深算算法法专专家家在蚂蚁工作十年,主要研究方向包括:逻辑学习,因果学习,自动学习,大模型等方向,在NeurIPS,ICML,KDD,SIGIR等会议上发表论文70余篇余篇,主导参与了蚂蚁内部的多个核心平台和项目,参与蚂蚁百灵大模型的开发,主导大模型离线推理框架flood开发:https:/ 蚂蚁集团资深算法专家ML-

2、SummitML-Summit蚂蚁大模型技术:聚焦应用场景,做专业、好用、可靠的行业应用大模型规模效率可信ScaleEfficiencyTrustworthinessML-SummitML-SummitLLM 性能需求训练后训练预训练RL推理评测样本合成在线服务训练端预训练对算力的需求巨大,需要高效的算法框架和训练框架来进行支持。Test time scaling 的发展,推高了后训练和 RL的重要性,在训练端对推理性能的诉求也变的更强烈。推理端在模型开发过程中需要大量的评测和合成样本,资源消耗巨大,但这些场景对 ttft 不敏感,更关注于整个系统的吞吐。RL系统对于推理的需求较高,同样更在乎

3、吞吐。ML-SummitML-Summit01.大模型训练中的架构选择和框架对齐02.更高效的 attention 机制探索03.高效离线推理框架-flood目录ML-SummitML-Summit大模型训练中的架构选择和框架对齐-Ling-lite&plus01ML-SummitML-SummitLing-lite&plus 概览 Ling-Lite:16.8B 激活 2.8B Ling-plus:290B 激活 28.8B Ling-max:?(WIP)预训练:9T 高质量语料 后训练:数百万指令数据 首个在非 Hopper 架构加速卡上预训练的 300B MoE 模型 跨平台预训练无缝切

4、换,Loss 误差小于0.1%性能对齐同尺寸下 SOTA 模型如 qwen2.5 72B、ds v2.5、llama 3.1 70B 等 更好的工具使用BFCL_v2&TevalMoE 架构跨平台训练SOTA 性能(同尺寸)ML-SummitML-SummitMoE 架构From DeepSeekMoE整体架构参考 DeepSeekMoELing-lite:64 个专家激活 6 个,共享 2 个Ling-plus:64 个专家激活4个,共享 1 个引入 NormHead 提升训练稳定性随机路由 warmup 保证训练初期稳定超参数(LR/BS)在不同 FLOPs 下存在最优设置区间对 Dens

5、e/MoE 架构,LR/BS 均服从对数线性关系模型高矮胖瘦,对最优 BS/LR 影响不大数据分布的小范围调整,对最优 BS/LR 影响不大MoE scaling law:超参设置、架构选择、训练监控的标准Loss2FLOPs 曲线决定了模型架构的“效率”对数反比函数具有更高的Loss外推拟合精度效率杠杆:同 Loss 下,MoE 激活 FLOPs 与 dense 的比值Ling MoE 架构在不同 FLOPs 下有 3-4 倍的效率杠杠ML-SummitML-Summit跨平台训练对齐DLRover:跨平台部署训练框架DeepSpeed、Megatron-LM、Mindspeed 等XPUT

6、imer:轻量性能监控与训练诊断Pcache:全闪存分布式缓存系统DTM:跨集群海量数据/CKPTs 同步Flood:高性能离线批量推理框架跨平台基础算子对齐linear、matmul 等分布式训练框架对齐micro batch size修复Router TP修复NormHead修复NormHead Grad修复.训练时 Loss 尖刺跟模型状态、数据状态、硬件稳定性等都有关系Loss 尖刺调过与重试机制Grad 尖刺处理机制小模型 loss/评测探针机制跨平台训练与监测算子/框架对齐训练稳定性ML-SummitML-Summit更高效的 attention 机制探索-线性 attention

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了蚂蚁集团资深算法专家李龙飞在ML-Summit会议上的演讲内容。李龙飞分享了在大模型训练、推理性能、混合线性模型探索以及高效离线推理框架Flood等方面的研究成果和应用实践。 关键点如下: 1. 李龙飞在蚂蚁工作十年,主要研究方向包括逻辑学习、因果学习、自动学习、大模型等方向,并在顶级会议上发表了70余篇论文。 2. 提出了性能驱动的大模型架构探索,包括网络架构及推理架构。 3. 介绍了混合线性大模型,将传统Attention的计算复杂度优化至线性级,将KVCache的空间复杂度优化至常数级,提高大模型训练和推理效率。 4. 分享了高效离线推理框架Flood的开发和应用,该框架具有训练速度快、耗时加速比随着训练长度增加而增大等特点。 5. 提出了高效率流水线并行、高效率调度、高效率kvcache管理等方面的解决方案,以提高大模型训练和推理的效率。 6. 给出了混合线性大模型在不同数据集上的性能表现和加速比,展示了其在数学和代码等相关推理数据上的优势。 以上内容根据报告的内容概括而成,数据来源于文章中的表格和文本。
"大模型训练中的架构选择和框架对齐有哪些挑战?" "如何实现更高效的 attention 机制探索?" "混合线性大模型在推理效率上有什么优势?"
客服
商务合作
小程序
服务号
折叠