1、 2025 年深度行业分析研究报告 1 Transformer 架构的过去和现在架构的过去和现在.4 1.1 人脑带来的启示:数据的无损压缩人脑带来的启示:数据的无损压缩.4 1.2 Transformer 应运而生:应运而生:Attention is all you need.6 1.3 Transformer 的优势:规模扩展、多模态能力的优势:规模扩展、多模态能力.9 2 Transformer 架构的未来架构的未来.12 2.1 Transformer 架构的局限性架构的局限性.12 2.2 Transformer 架构的挑战者架构的挑战者.13 2.2.1 RetNet.14 2.2
2、.2 Mamba.16 2.2.3 RWKV(Receptance Weighted Key Value).18 2.2.4 Hyena.20 2.2.5 线性注意力机制线性注意力机制.21 2.3 架构展望:更低计算复杂度、更低成本、更高效率架构展望:更低计算复杂度、更低成本、更高效率.24 图图 1.大语言模型(大语言模型(LLMs)自进化概念框架图)自进化概念框架图.4 图图 2.大语言模型(大语言模型(LLMs)与大脑相似性估计框架的示意图)与大脑相似性估计框架的示意图.5 图图 3.大语言模型上不同提示添加策略与大脑相似性大语言模型上不同提示添加策略与大脑相似性.5 图图 4.大语言
3、模型在处理积极和消极情感文本时与大脑的相似性大语言模型在处理积极和消极情感文本时与大脑的相似性.5 图图 5.Transformer 模型架构模型架构.6 图图 6.注意力机制预测下一个词汇注意力机制预测下一个词汇.7 图图 7.缩放点积注意力(缩放点积注意力(Scaled Dot-Product Attention)原理和)原理和 Softmax 公式公式.8 图图 8.多头注意力(多头注意力(Multi-Head Attention)原理和)原理和 MHA 公式公式.9 图图 9.Transformer 和和 LSTM 在不同参数数量和上下文长度下的测试损失在不同参数数量和上下文长度下的测
4、试损失.10 图图 10.主流大模型参数量变化主流大模型参数量变化.10 图图 11.RNN/LSTM、CNN 和和 Transformer 在跨模态任务中的优势、劣势在跨模态任务中的优势、劣势.11 图图 12.Transformer 架构的计算复杂度过高来源于其自注意力机制架构的计算复杂度过高来源于其自注意力机制 Softmax Attention.12 图图 13.大模型参数量不断膨胀,已达大模型参数量不断膨胀,已达 1000B.13 内容目录 图表目录 kVaXhXtUmUqRnPbRbP7NsQpPtRsPlOnNmNfQoMmMaQpPuNvPsQoRuOmNpN 图图 14.谷歌
5、谷歌 CORE ML/AI 副总裁副总裁 Bill Jia 在在 2024 年硅谷华源科技年会上接受采访年硅谷华源科技年会上接受采访.14 图图 15.潜在的潜在的 Transformer 架构替代架构架构替代架构.14 图图 16.RetNet 的并行与循环过程的并行与循环过程.15 图图 17.RetNet 同时实现训练并行性、良好性能和低推理成本这一“不可能的三角”同时实现训练并行性、良好性能和低推理成本这一“不可能的三角”.16 图图 18.状态空间模型(状态空间模型(SSM)的架构示意图)的架构示意图.16 图图 19.RNNs、Transformers 和和 SSMs 在自回归序列
6、建模任务中的优缺点在自回归序列建模任务中的优缺点.17 图图 20.改进改进 Mamba 架构的现有研究总结(主要集中于修改块设计、扫描模式和记忆管理)架构的现有研究总结(主要集中于修改块设计、扫描模式和记忆管理).17 图图 21.RWKV-6 的的 token shift 计算流程计算流程.18 图图 22.RWKV-4、RWKV-5 Eagle 和和 RWKV-6 Finch 模型的上下文长度实验随版本迭代表现变好模型的上下文长度实验随版本迭代表现变好.19 图图 23.在在 RWKV-6Finch、Mamba 和和 Flash Attention 中,中,RWKV-6 的显存占用率最低