上周,月之暗面發布了全新版本的大模型,Kimi K2。
這是目前世界上第一個參數量達到萬億級別的開源模型,發布后迅速引爆了圈內討論。
它不僅在各種評估基準上表現亮眼,也收獲了國內外開發者社區的普遍好評。
在 LMSYS 的開源模型排行榜(LMArena)上,Kimi K2 直接躍升至第一名。
但也有不少人質疑 Kimi K2 是在「抄襲」DeepSeek。
Kimi 團隊則大方回應:確實是在 DeepSeek V3 的基礎上做了改進。
甚至有網友直接對比了兩者的架構,指出了細節差異:
就在大家還在討論這些差異、參數規模、以及模型路線時,Kimi 今天又放出了一份干貨:Kimi K2 的技術報告正式發布。
我第一時間打開來看,快速掃了一遍,關鍵詞大概是:萬億參數的混合專家模型、讓訓練更穩定的 MuonClip 優化器、不斷被強調的 Agentic 智能,還有自我批評式的通用強化學習……
直到我翻到附錄,發現一張有點意思的作者列表,除了看到月之暗面創始人楊植麟的名字,竟然!
Kimi K2 技術報告作者頁面
Kimi K2……自己也是作者之一?
我突然有點恍惚,把你「造」出來,你還參與了如何「造出你」的論文撰寫?
那我還研究什么,既然它都上作者署名了,直接問他就好了!
我就把這份技術報告交給 Kimi K2 來分析一下,看看它能不能講明白,Kimi K2 到底做了什么。
于是,這篇文章就變成了:我,把技術報告丟給了 Kimi K2,讓它「揭秘」它自己。
Kimi K2:為「智能體時代」奠基的萬億級開源大模型——《Kimi K2 Technical Report》深度解讀
從「會聊天」到「能干活」:為什么需要新一代大模型
過去兩年,大模型的競賽焦點集中在「誰能把考試題刷得更高」,但真實世界的需求正在迅速轉向「誰能像人一樣干活」。
從自動修復代碼漏洞、跨工具協同辦公,到自主完成科研實驗,業界把這種「感知-規劃-執行-反思」的閉環能力稱為 Agentic Intelligence(智能體智能)。
Kimi K2 正是這種范式切換下的第一個系統性成果:它不僅要會做題,更要能在復雜、動態、多工具環境中像「實習生」一樣自我進化。
速看省流版:
技術層面:MuonClip 優化器、稀疏 MoE 架構、改寫數據策略,共同給出了「高質量數據稀缺」時代的超大規模訓練新范式;
數據層面:合成+真實混合環境的十萬個工具軌跡為社區提供了可復現、可擴展的智能體數據生產線;
開源層面:1 T 參數的 base + instruct 權重全部放出,相當于把一輛 F1 賽車開源給了所有工程師。
模型一覽:萬億總參數、320 億激活的「稀疏巨人」
規模:總參數 1.04 T,激活參數 32 B,MoE(混合專家)架構,稀疏度 48(每 token 只激活 8/384 位專家);DeepSeek V3 的參數總量是 6710 億,其中激活參數量為370 億 。
訓練數據:15.5 T token,涵蓋網頁、代碼、數學、知識四大領域,全部經過質量清洗與「改寫法(數據增強技術,增加數據多樣性)」擴增。
訓練穩定:首次在大規模模型訓練過程中,損失函數沒有發生任何大的波動或異常,歸功于新優化器 MuonClip。
上下文窗口:128K token,滿足長文檔、多輪工具調用的需求。
MuonClip:大規模模型超高效訓練方法
Muon 優化器以訓練效率高著稱,但在參數規模較大時,可能會出現注意力權重爆炸的問題,即 logits 值過大,導致訓練不穩定。
作者提出 QK-Clip 機制融合到 Muon 優化器中。QK-Clip 能夠在 logit 過大時,自動進行調節;同時,不會改變網絡結構,對模型干預極小,但作用極大。
注意力權重爆炸問題大多出現在超大規模的大模型訓練中,這也是此次 Kimi K2 萬億參數能夠成功訓練的重要突破之一。
沒有使用 QK-Clip 的 Muon 優化器在訓練時,會無法控制 logits 數值,從而導致大模型訓練的不穩定;而 Kimi K2 的 MuonClip 在整個訓練過程中都可以很好的控制 logits 。
實驗顯示,MuonClip 在中等規模,90 億激活參數時,就可抑制 logits 超過 1000,在 K2 全量訓練中全程沒有不穩定和優化問題出現,始終確保了訓練的穩定性。
文本數據:合成數據+真實數據雙 buff
高質量數據越來越稀缺,而在訓練中簡單多輪重復讀取容易導致模型的過擬合。Kimi K2 提出兩套改寫策略:
知識文本:用 LLM 以不同風格、視角重寫維基百科,同時保持語義一致性自動校驗,例如把「光合作用」改寫成「植物如何制造養分的偵探故事」;
數學文本:按「學習筆記」風格重寫并多語種翻譯,把奧數競賽題都改寫成「費曼式講解」。
數據改寫流程,將輸入拆分為保留上下文的小塊,按順序重寫,然后拼接成完整的重寫段落。
Kimi K2 也在多個實驗進行了測試,結果顯示一次改寫+單輪訓練的準確率(28.94%)優于原始文本反復讀取十輪(23.76%)。
智能體數據:2 萬工具、10 萬軌跡
要讓模型會調用工具,最難的是「可擴展的真實環境」。作者搭建了混合管線:
工具庫:3000+ 真實 MCP 工具,2 萬+ LLM 合成工具,覆蓋金融、城市物聯網、軟件開發等 20 余領域;
「任務-智能體-評估」三元組自動生成智能體訓練樣本:每條生成的軌跡(即模型的輸入、輸出、決策過程、以及所采取的每一步行動)由 LLM Judge 打分,通過率 <10% 時,采用拒絕采樣方法;確保只選擇符合要求的樣本進行進一步的訓練或評估;
真實智能體任務數據補充:例如代碼類任務直接扔給開源的容器編排平臺,執行任務并測試,保證反饋真實。
工具庫使用的數據合成流程,工具來自真實世界的工具和LLMs;智能和任務從工具庫中生成。
最終產出超過 10 萬的高質量軌跡,用于監督微調與強化學習。
強化學習框架:可驗證獎勵 + 自我批評
可驗證獎勵的強化學習:對于數學、代碼、邏輯題等任務,直接跑單元測試或數值驗證,客觀評估模型表現;
自我批評獎勵:而對于非客觀任務(比如寫詩等),模型用 30 多條標準(清晰、客觀、對話流暢、安全等指標)給 Kimi K2 的回答打分,實現無參考答案的對齊;
預算控制:拒絕「廢話連篇」,強制用最少 token 解決問題(節省推理費)。
成績匯報:開源第一,逼近閉源
所有對比均為「非思考」模式,不考慮測試時計算資源的差異。
Kimi K2 在代碼、數學、工具使用和長文本四項關鍵能力上均取得或逼近當前開源模型的最優成績,并在多項任務上超越閉源標桿。
詳細結果圖,從上至下依次是代碼、工具、理工科以及通用任務。
局限與展望
多步復雜推理場景下輸出過長,可能被截斷;
在多輪任務中,如果觸發了錯誤工具,或者工具調用失敗,會拉低表現;
Kimi K2,是「Agentic-aware」模型(接受過 agent 任務訓練),但還不是一個「完整 Agent 框架」系統。在長流程開發任務中的一次成功率,Kimi K2 仍然低于那些完整 Agent 框架驅動下的系統。
Kimi K2 后續將圍繞推理效率、工具自我評估、長過程推理規劃繼續迭代。
Kimi K2 的意義不止于又刷新了幾個 benchmark。可以預料,隨著開源社區在此基礎上繼續改進,2025 下半年將出現一批「比 K2 更會干活」的垂直智能體,真正把大模型從「聊天框」帶進「生產線」。