当前位置:首页 > 报告详情

王全东-SUBLLM新架构文本下采样机制革新大语言模型效率.pdf

上传人: 鲁** 编号:615367 2025-03-03 48页 5.59MB

1、SUBLLM新架构:文本下采样机制革新大语言模型效率王全东 小米大模型团队演讲嘉宾王全东小米大模型团队 大模型高级算法工程师中国科学院声学研究所博士、美国佐治亚理工访问学者、中科院认证高级工程师,长期从事大语言模型、多模态、语音识别等领域研究,曾获多项顶会竞赛冠亚军奖项,已发表顶会论文十余篇,拥有专列多项。深度参与了小米自研大模型从0到1的研发过程,荣获2024年度CCF计算机应用创新技术一等奖。近期和Daniel Povey等提出SUBLLM新架构,被量子位等科技媒体报道。目 录CONTENTS1.长文本模型的技术挑战2.SUBLLM架构3.主要实验结果4.分析与讨论5.总结与展望长文本模型

2、的技术挑战PART 01长文本模型的技术挑战长文本需求旺盛多人会议摘要行业报告新闻摘要学术论文分析长文写作长篇翻译长文本模型的技术挑战长文本模型结构:Decoder only Transformer结构:Llama 类似结构,attention的平方复杂度,by Meta,2023长文本模型的技术挑战8k窗长32K窗长200K窗长1M窗长215T tokens510B tokens510B tokens510B tokens训练成本高:attention的平方复杂度主要优化点长文本模型的技术挑战模型窗长扩展方法:数据方向,训练成本不高1.Data Engineering for Scaling

3、 Language Models to 128K Context长文本模型的技术挑战模型窗长扩展方法:位置编码方向,训练成本不高2.YaRN:Efficient Context Window Extension of Large Language ModelsNTK-by-parts+温度控制长文本模型的技术挑战模型窗长扩展方法:位置编码方向,训练成本不高3.PoSE:Efficient Context Window Extension of LLMs via Positional Skip-wise Training长文本模型的技术挑战8k窗长32K窗长200K窗长1M窗长215T toke

4、ns510B tokens510B tokens510B tokens训练成本主要在8k预训练阶段:attention的平方复杂度主要优化点长文本模型的技术挑战Decoder only Transformer长文本模型训练infra开发1.DeepSpeed Ulysses:优势:对Attention 的实现不敏感,适合各种attention方法劣势:序列并行度不能超过头数长文本模型的技术挑战Decoder only Transformer长文本模型训练infra开发2.Ring-attention:“大号”的flash attention优势:并行度的扩展性较好劣势:对Attention 变

5、种不友好,eg.Sparse Attention长文本模型的技术挑战推理成本高:attention的平方复杂度推理速度角度,200k 比 20k 贵28倍,比2k 贵112倍 长文本模型的技术挑战其他长文本模型结构:1.Infini-Transformer:长期压缩记忆和局部因果注意力attentionInfini-Transformer 模型结构 by Google,2024长文本模型的技术挑战其他长文本模型结构:2.MEGALODON:继承MEGA(带有门控注意力的指数移动平均)并改进MEGALODON 模型结构 by Meta,2024长文本模型的技术挑战加速方法很多 备受关注 SUBL

6、LM应运而生SUBLLM架构PART 02SUBLLM架构目标:1.开发一种优化资源使用的架构,同时保持模型能力不变。2.区分重要token和不重要token,重要token占主要算力3.兼容现有attention based模型生态,模型广泛应用的关键SUBLLM架构受语音领域启发:语音信号下采样减少冗余 保留必要信息语音识别中语音分帧后降采样4倍Conformer结构by Google,2020SUBLLM架构受语音领域启发:语音信号下采样减少冗余 保留必要信息语音识别Zipformer,最高降采样16倍Zipformer 模型结构 by Daniel Povey,2024SUBLLM架构

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文介绍了小米AI实验室高级工程师王全东博士等人提出的SUBLLM新架构,该架构通过下采样、上采样和旁路模块,动态地将资源分配给重要的token,有效地测量token重要性分数并按预期控制分数值的分布在推理过程中实现所需的下采样保留率。实验结果显示,SUBLLM在训练和推理方面分别实现了加速,训练加速34%,推理50%,同时显着降低了内存成本,保持了模型能力。此外,文章还探讨了长文本模型的技术挑战以及现有解决方案,并展望了SUBLLM在未来长文本场景和多模态模型中的应用前景。
"SUBLLM新架构如何革新大语言模型效率?" "如何通过下采样提高大模型训练和推理效率?" "SUBLLM在长文本处理上有哪些应用前景?"
客服
商务合作
小程序
服务号
折叠