Kimi Linear 架构的核心是 Kimi Delta Attention (KDA),一种表达能力更强的线性注意力模块,通过更精细的门控机制实现了对循环神经网络有限状态记忆的有效利用。最终,Kimi Linear 模型不仅在各项任务上取得了更优异的性能,还在效率上实现了巨大突破:与 full attention 模型相比,能将 Key-Value (KV) 缓存的使用量减少高达 75%,并在处理百万级别的长下文时,实现高达 6 倍的解码吞吐量提升。这表明 Kimi Linear 可以作为全注意力架构的 “即插即用” 替代品,在提升性能的同时显著增强了效率。 |