大模型領域迎來重要突破,月之暗面公司正式開源其自主研發的混合線性注意力架構Kimi Linear。該架構在短上下文、長上下文及強化學習擴展機制等多個場景中,首次實現了對傳統Transformer架構全注意力機制的全面超越,為人工智能模型效率提升開辟了新路徑。
核心創新在于其開發的線性注意力模塊Kimi Delta Attention(KDA)。該模塊通過引入通道級對角門控機制,在Gated DeltaNet基礎上實現技術升級。相較于傳統頭部遺忘門控,這種細粒度設計使每個特征維度具備獨立遺忘率,顯著提升了有限狀態RNN內存的利用效率。實驗數據顯示,在保持模型質量的前提下,KDA將KV緩存占用率降低75%,同時使百萬級Token解碼吞吐量提升至原有架構的6倍。
研究團隊采用3:1的混合架構設計,將KDA與全注意力層按比例交錯排列。這種創新結構在生成長序列時,既能通過全注意力層維持全局信息流通,又可大幅削減內存消耗。預訓練的Kimi Linear模型擁有30億激活參數和480億總參數,在1.4萬億token訓練數據支撐下,于通用知識、數學推理、編程能力及中文任務等多個維度均展現出顯著優勢。
技術實現層面,KDA采用Diagonal-Plus-LowRank(DPLR)矩陣變體進行動態參數化,配合定制分塊并行算法,在保持與經典delta規則一致性的同時,將計算復雜度降低近半。輸出階段通過塊間遞歸與塊內并行策略,充分釋放張量核心計算潛力。神經參數化設計采用低秩輸出門結構,在確保參數公平比較的基礎上,有效緩解注意力陷阱問題。
性能評估顯示,該架構在BBH常識推理、MMLU學科測試、HellaSwag情景預測等基準測試中均取得最高分。數學領域方面,在AIME 2025、HMMT 2025等高難度競賽級測試中表現突出;編程能力驗證中,PolyMath-en和LiveCodeBench等平臺成績領先。中文任務評估中,Ceval和CMMLU測試得分創下新高。效率對比實驗表明,當處理512k長度序列時,其性能達到傳統架構的2.3倍,處理百萬級序列時效率提升近3倍。
開源內容包含KDA內核代碼、vLLM集成方案及預訓練模型檢查點。開發者可通過GitHub(fla-org/flash-linear-attention)和Hugging Face(moonshotai/Kimi-Linear-48B-A3B-Instruct)平臺獲取完整資源。這項突破不僅為長序列建模提供了高效解決方案,更通過直接替代傳統注意力機制的特性,顯著降低模型優化成本,為人工智能應用落地開辟新可能。

















