当前位置:首页 > 报告详情

LLM 训练推理加速在阿里巴巴的实践-刘侃 杨斯然.pdf

上传人: 张** 编号:153169 2024-01-15 21页 3.55MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了大型语言模型(LLM)的训练和推理加速实践。首先,介绍了大语言模型训练的过程,包括预训练、有监督微调和强化学习。然后,详细讨论了训练过程中的算法和问题,如GPU梯度计算、模型存储限制和梯度同步。文章还介绍了Megatron-LLaMA框架,该框架通过优化计算和通信并行,将LLaMA模型应用于Megatron-LM,从而提高训练效率。在LLM推理方面,文章指出了推理趋势、应用场景和挑战,并介绍了rtp-llm框架,该框架通过多种优化方法,如量化、剪枝和蒸馏,实现了推理加速。最后,文章以淘宝问问KVCache复用、Query改写极致延迟优化和Speculative近似方法为例,说明了rtp-llm框架的实践应用。
"大语言模型训练如何优化算法和问题?" "Megatron-LLaMA框架如何实现模型并行和通信并行?" "LLM推理中,如何通过rtp-llm框架解决算力/延迟/成本的约束问题?"
客服
商务合作
小程序
服务号
折叠