当前位置:首页 > 报告详情

林玥煜-RWKV引领大模型架构变更的新型RNN.pdf

上传人: 鲁** 编号:615337 2025-03-03 38页 7.62MB

1、RWKV,引领大模型架构变更的新型RNN林玥煜 元始智能演讲嘉宾林玥煜 元始智能算法工程VP原始智能算法工程VP,曾任大数医达科技有限公司算法总监,阿里巴巴数据事业部系统架构师,多年来深耕大数据、人工智能在工业界应用和开发管理。对大语言模型在严肃医疗场景的应用、开发拥有丰富的实战经验。目 录CONTENTS1.RWKV的历史2.RWKV的架构特点3.RWKV的基础模型4.RWKV的落地场景5.RWKV的未来发展方向6.RWKV的评测结果新一代模型架构/超越TransformerRWKV推理速度、内存恒定适合长文本处理、多轮对话等只做矩阵乘矢量,无 KV CacheApache 2.0 协议计算

2、效率高无限上下文对芯片友好全球开源开放项目历史2023.12一个人的开源项目2020年初2022.11RWKV-4 7B模型开源2023.03RWKV-4 14B模型开源2023.05RWKV-4论文公开RWKV-5 7B模型开源种子轮奇绩创坛2024.01RWKV-5和RWKV-6论文公开2024.04RWKV-6 7B 模型开源2024.052023.06成立元始智能2023.08第一个商业客户2023.102023.07RWKV-6代码开源全球开发者超过2万2023.10高通全球合作2024.2第一个toC 端侧应用RWKV要解决的问题Transformer 是死胡同算力需求巨大,Sca

3、ling-law 失效RWKV 正引领大模型的架构迁移RWKV 开始于 2020 年初,正在研发 RWKV-7架构名称作者和论文地址架构版本阶段算法复杂度最大模型参数最大训练TOKENRWKVBo PENGhttps:/arxiv.org/abs/2305.13048RWKV-6商用O(N)14 B2.5 T(SlimPajama+pile+全球语言+代码)Mamba CMU,Princetonhttps:/arxiv.org/abs/2312.00752接近 RWKV-6发展O(N)6.7 B0.627 T(SlimPajama)Gated Linear AttentionMIThttps:

4、/arxiv.org/abs/2312.06635接近 RWKV-6研究O(N)1.3 B0.1 TStriped Hyena Together,Stanfordhttps:/arxiv.org/abs/2302.10866接近 RWKV-4.5 与 Llama2 的混合发展O(N logN)与 O(N2)之间7 B1 T+xLSTMLSTM 作者https:/arxiv.org/abs/2405.04517接近 RWKV-6研究O(N)1.3 B0.3 TRetNet微软亚洲研究院,清华大学https:/arxiv.org/abs/2307.08621接近 RWKV-5研究O(N)6.7 B

5、0.1 TTransnormerLLM上海人工智能实验室,OpenNLPLabhttps:/arxiv.org/abs/2307.14995接近 RWKV-5发展O(N)6.8B1.4TRWKV兼具Transformer高效训练和RNN高效推理的新架构我们是怎么做的?RNN和Transformer各的局限性RNN 在训练长序列时容易出现梯度消失问题。RNN 在训练过程中无法在时间维度上进行并行化,限制了其可扩展性。Transformer 具有二次复杂度,长序列任务中计算成本高和占用内存多。时间和空间复杂度较我们是怎么做的?RNN 结构示意图相比较,Transformer 一次处理一整句话,或一

6、整段话,可以并行训练RNN最简单有效的基本形式ht=t ht1+(1 t)xtRNN 一步一步执行,每次仅处理一个字或一个词内存占用小,计算量小对前一步结果的依赖,使得 RNN 无法并行化训练,极大限制了 RNN 的可扩展性我们是怎么做的?RWKV的由来RWKV与QKV相对,贯穿整个RWKV系列虚线代表RWKV-6中有RWKV-5中没有RVKWReceptance作为过去信息的接受程度的接受向量值(Value)类似于传统注意力中 V 的向量Weight位置权重衰减向量,可训练的模型参数键(Key)类似于传统注意力中 K 的向量时间混合模块的演进RWKV-6引入了channel-wise的衰减率

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文介绍了RWKV,一种新型的RNN架构,旨在解决Transformer在长序列处理中的算力需求巨大和Scaling-law失效的问题。RWKV由林玥煜提出,他在元始智能担任算法工程VP,并曾在大数医达科技有限公司担任算法总监,阿里巴巴数据事业部系统架构师。RWKV具有以下特点:历史发展:从2020年初开始研发,2022年11月发布RWKV-4 7B模型,2023年3月发布RWKV-4 14B模型,并在同年5月发表论文。未来发展方向:已成立元始智能,拥有第一个商业客户,并在2023年10月与高通全球合作,2024年2月推出第一个toC端侧应用。模型架构:RWKV兼具Transformer高效训练和RNN高效推理的特点,通过改进的time-mixing模块和RNN结构,实现了计算效率的提高和内存占用的小幅下降。落地场景:RWKV-LM在Github上拥有超过11000个星标,Visual-RWKV、Vision-RWKV、Diffusion-RWKV、PointRWKV、RWKV-CLIP、RWKV-SAM等模型也在开发中。性能评测结果:RWKV在英文语言建模能力上仅次于最好的LLaMA-8B和Mistral-7B,多语言能力最佳,能耗只有LLaMA的一半,RWKV-6在MQAR测试中有显著优势,内存占用比Flash Attention少40%。
如何实现高效训练与推理?" 如何解决Transformer的局限性?" 未来有哪些应用场景和挑战?"
客服
商务合作
小程序
服务号
折叠