Transformer [^1]论文中使用了注意力attention机制,注意力attention机制的最核心的公式为: 这个公式中的 q 、 k 和 v 分别代表query、key和value,他们之间进行的数学计算. 通俗解释 sparse attention 的原理: 想象你在读一本长篇小说,如果每一页都要仔细读完全文才能理解剧情,效率会非常低。实际上,你会 快速跳过无关段落,只聚焦关键章节和人物对话,. Lightning attention 是如何克服传统线性注意力机制需要累加求和的缺陷的? 传统linear attention虽然计算复杂度降到了o (n),但是在因果 (causal)推理时,往往需要cumsum操.