1、Feihu TangMoonshotAI Yet Another Dev.Rel.Apr.17th,2026LINEAR ATTENTIONLINEAR ATTENTION线性注意力线性注意力过去、现在与未来过去、现在与未来奇点智能技术大会奇点智能技术大会TABLE OF CONTENTSTABLE OF CONTENTS目录目录0101注意力机制的困境与线性注意力的诞注意力机制的困境与线性注意力的诞生生探索Transformer注意力机制的局限性,以及线性注意力如何通过数学创新突破计算瓶颈0202线性注意力的核心原理线性注意力的核心原理揭示线性注意力背后的数学原理和算法机制0303线性注意力
2、的演进之路线性注意力的演进之路追踪线性注意力从诞生到成熟的重要模型和里程碑0404性能对比与应用实践性能对比与应用实践用数据和案例说话,展示线性注意力的实际表现0505未来展望与挑战未来展望与挑战展望线性注意力的未来发展方向和面临的挑战About me Moonshot Dev Rel&AlignmentTrae ExpertXoogler in data infra ads(DIA)teamACM/ICPC Gold MedalCHAPTER 01CHAPTER 01注意力机制的困境与注意力机制的困境与线性注意力的诞生线性注意力的诞生探索Transformer注意力机制的局限性,以及线性注意
3、力如何通过数学创新突破计算瓶颈“相信大家近两周都在开心地养自己的龙虾(openclaw),但请大家在设置定时任务时(cron),尽可能避免设置整点(例如 10:00/10:30)定时任务,每个整点激增的 openclaw 请求都对我们的推理服务提出了极大挑战,这种感觉就像每个整点都有一大群龙虾搭乘太空电梯集体攻打月球一样(然后半个小时后还有增援部队)。”THE BOTTLENECKTHE BOTTLENECKTransformerTransformer的二次方困境的二次方困境标准注意力计算标准注意力计算Attention(Q,K,V)=softmax(QKT/d)V计算QKT生成NN矩阵,导致
4、内存和计算复杂度随序列长度呈二次方增长复杂度分析复杂度分析内存复杂度O(N)计算复杂度O(Nd)序列长度N=100K时100100亿次操作亿次操作实际应用限制实际应用限制当处理长文档、高分辨率图像或视频时,二次复杂度导致显存不足和计算缓慢,严重限制了Transformer的应用范围计算复杂度对比计算复杂度对比BREAKTHROUGHBREAKTHROUGH线性注意力的诞生:从理论到实践线性注意力的诞生:从理论到实践核心创新核心创新Katharopoulos等人(2020)提出通过核函数核函数替换Softmax,利用矩阵乘法结合律矩阵乘法结合律改变计算顺序sim(Q,K)=(Q)(K)T计算流程
5、对比计算流程对比传统注意力传统注意力(Q)(K)T)V O(Nd)线性注意力线性注意力(Q)(K)TV)O(Nd)关键优势关键优势线性复杂度线性复杂度:计算量随序列长度线性增长常数内存常数内存:推理时只需维护固定大小的状态并行训练并行训练:保持Transformer的并行化优势线性注意力计算流程线性注意力计算流程Q Q核函数映射核函数映射(Q)=kernel(Q)K,VK,V预计算预计算KVKV状态状态S=(K)TVOutOut线性注意力输出线性注意力输出O=(Q)S/normalization核心洞察:核心洞察:通过改变计算顺序,将复杂度从O(Nd)降低到O(Nd),在长序列场景下实现数量级
6、的效率提升PERFORMANCE GAPPERFORMANCE GAP性能差距之谜:为什么线性注意力一度表现不佳性能差距之谜:为什么线性注意力一度表现不佳核心问题核心问题尽管线性注意力在效率上具有显著优势,但早期方法在视觉和语言任务上的准准确率明显低于确率明显低于Softmax注意力,这限制了其实际应用单射性缺失单射性缺失(Injectivity)(Injectivity)清华大学研究清华大学研究(2024)(2024)发现:Softmax注意力是 单射函数,而线性注意力 不是后果:后果:不同查询可能产生相同的注意力分布,导致语义混淆语义混淆,模型无法区分某些语义局部建模能力不足局部建模能力不