Kimi K2稱霸全球開源模型的秘籍公開了!
沒錯(cuò),就是整整32頁的Kimi K2官方技術(shù)報(bào)告。業(yè)內(nèi)人士第一波repo已火速出爐:
這篇論文中有很多令人印象深刻的內(nèi)容。
nice!它分享了很多關(guān)于Kimi(以及中國實(shí)驗(yàn)室)對這些模型的看法(他們關(guān)注/優(yōu)化的內(nèi)容)
Kimi K2,作為Kimi最新MoE基礎(chǔ)模型,總參數(shù)1T,激活參數(shù)32B,能力領(lǐng)先性尤其展現(xiàn)在代碼、Agent、數(shù)學(xué)推理任務(wù)上。
上線僅一周,它就在競技場千人盲評中擊敗DeepSeek,登頂全球最強(qiáng)開源模型,而且能媲美Grok 4、GPT 4.5等頂尖閉源模型。
那它是咋做到的呢?
別急,這篇最新論文來給答案了——一次性大公開Kimi K2的訓(xùn)練過程及“秘密配方”。
包括但不限于大家已經(jīng)熱議的:MuonClip優(yōu)化器、大規(guī)模Agentic Tool Use數(shù)據(jù)合成、通用強(qiáng)化學(xué)習(xí)等等。
下面詳細(xì)來看。
都有哪些技術(shù)亮點(diǎn)
首先,Kimi團(tuán)隊(duì)認(rèn)為,現(xiàn)如今大語言模型正從靜態(tài)模仿學(xué)習(xí)向Agentic Intelligence轉(zhuǎn)型。
這意味著,模型需要具備在復(fù)雜動態(tài)環(huán)境中自主感知、規(guī)劃、推理和行動的能力。
要實(shí)現(xiàn)這一點(diǎn),當(dāng)面人們面臨兩大挑戰(zhàn):
預(yù)訓(xùn)練需在高質(zhì)量數(shù)據(jù)有限的約束下,通過提升每token效率構(gòu)建通用先驗(yàn)(universal prior)。后訓(xùn)練需將先驗(yàn)轉(zhuǎn)化為可行動行為,但Agentic能力在自然數(shù)據(jù)中稀缺且難以規(guī)?;?。
對此,團(tuán)隊(duì)在Kimi K2中采用了三大核心創(chuàng)新技術(shù):
1、MuonClip優(yōu)化器:拋棄傳統(tǒng)的Adam優(yōu)化器,創(chuàng)新性地使用了Muon優(yōu)化器。結(jié)合Muon的token效率與QK-Clip的穩(wěn)定性,支持15.5萬億token無損失spike預(yù)訓(xùn)練。
2、大規(guī)模Agentic Tool Use數(shù)據(jù)合成:構(gòu)建可大規(guī)模生成多輪工具使用場景的合成pipeline,覆蓋數(shù)百領(lǐng)域、數(shù)千工具。
3、通用強(qiáng)化學(xué)習(xí)框架:結(jié)合可驗(yàn)證獎(jiǎng)勵(lì)(RLVR)和自我批判評估獎(jiǎng)勵(lì),將對齊從靜態(tài)擴(kuò)展到開放域。
得益于以上技術(shù),Kimi K2在SWE Bench Verified、Tau2、AceBench等基準(zhǔn)性能測試中,均取得開源模型中的SOTA成績。
以下為技術(shù)細(xì)節(jié)部分:
預(yù)訓(xùn)練階段
在Kimi K2預(yù)訓(xùn)練階段,團(tuán)隊(duì)主要對優(yōu)化器和數(shù)據(jù)進(jìn)行了優(yōu)化。
整體而言,其預(yù)訓(xùn)練采用了MoE架構(gòu)+穩(wěn)定優(yōu)化器+高效token利用這一全新組合拳,以此構(gòu)建通用語言和推理能力。
模型架構(gòu)上,一共包含384個(gè)專家,每層激活其中8個(gè),通過這種高度稀疏的設(shè)計(jì)在保證性能的同時(shí)優(yōu)化計(jì)算效率。
在注意力機(jī)制上,K2使用MLA(Multi-head Latent Attention)結(jié)構(gòu)代替?zhèn)鹘y(tǒng)的密集注意力(dense attention),有效減少了計(jì)算量和帶寬壓力。
而且將每層的注意力頭數(shù)量降至64個(gè),與同類模型相比進(jìn)一步降低了推理過程中的資源消耗,使模型能更好地處理長上下文。
優(yōu)化器選擇上,K2采用了MuonClip優(yōu)化器,其核心是在Muon優(yōu)化器基礎(chǔ)上融合了QK-Clip機(jī)制。
這一機(jī)制會定期檢查模型注意力的關(guān)鍵參數(shù)(query和key),如果它們的值太大,就自動“收緊”,防止計(jì)算過程出現(xiàn)異常,從而顯著提升了訓(xùn)練穩(wěn)定性。
團(tuán)隊(duì)最終也發(fā)現(xiàn),借助MuonClip可讓K2在15.5萬億token的預(yù)訓(xùn)練過程中實(shí)現(xiàn)零損失spike,確保了大規(guī)模訓(xùn)練的連續(xù)性和有效性。
數(shù)據(jù)方面,其核心目標(biāo)為,在高質(zhì)量數(shù)據(jù)有限時(shí),通過提升每token的有效學(xué)習(xí)信號(token效用)來增強(qiáng)訓(xùn)練效率,避免重復(fù)訓(xùn)練導(dǎo)致的過擬合。
而為了讓模型“吃透”有限的優(yōu)質(zhì)訓(xùn)練數(shù)據(jù),K2團(tuán)隊(duì)采取了一種所謂的“重述法”。
對知識類文本:不是簡單重復(fù)讀,而是換著說法再講一遍。對數(shù)學(xué)類文本:把枯燥的教材式內(nèi)容改寫成更易理解的“學(xué)習(xí)筆記”風(fēng)格,還加入了多語言版本的翻譯文本,讓模型見多識廣。
一言以蔽之,K2的訓(xùn)練數(shù)據(jù)覆蓋網(wǎng)頁、代碼、數(shù)學(xué)、知識四大板塊,所有數(shù)據(jù)都經(jīng)過嚴(yán)格的質(zhì)量篩選,確保模型學(xué)到的都是有用的信息。
而且它不是靠“多刷題”訓(xùn)練出來的,而是靠“換種說法講一遍”讓模型真正理解知識。
用重寫 10 次的數(shù)據(jù)訓(xùn)練 1 輪(28.94%),其準(zhǔn)確率超過了用原始數(shù)據(jù)訓(xùn)練 10 輪(23.76%)的結(jié)果 。
概括而言,K2采用了與DeepSeek-V3相似的多頭潛在注意力(MLA),具體對比如下:
后訓(xùn)練階段
K2后訓(xùn)練階段主要涉及監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)。
值得一提的就是大規(guī)模Agentic Tool Use數(shù)據(jù)合成,主要流程如下:
工具生成:3000多真實(shí)MCP工具+20000多合成工具,覆蓋金融、機(jī)器人控制等領(lǐng)域;Agentic與任務(wù)生成:為工具集生成多樣化Agentic(系統(tǒng)提示+工具組合)和帶評估標(biāo)準(zhǔn)的任務(wù);軌跡生成:模擬用戶交互、工具執(zhí)行環(huán)境(含狀態(tài)更新和隨機(jī)結(jié)果),生成多輪工具使用軌跡;結(jié)合真實(shí)執(zhí)行沙箱(如編碼任務(wù)),確保數(shù)據(jù)真實(shí)性。
最終,Judge Agent會依據(jù)任務(wù)rubrics對軌跡質(zhì)量進(jìn)行判斷,只保留高質(zhì)量樣本用于訓(xùn)練。
這一過程本質(zhì)上是一種大規(guī)模拒絕采樣(rejection sampling)機(jī)制,結(jié)合模擬規(guī)模與真實(shí)反饋,實(shí)現(xiàn)了大范圍、高保真的訓(xùn)練數(shù)據(jù)構(gòu)建。
而在強(qiáng)化學(xué)習(xí)階段,K2主要經(jīng)歷了三大步驟:
第一,構(gòu)建可驗(yàn)證的獎(jiǎng)勵(lì)環(huán)境(Verifiable Rewards Gym)。
簡單說,團(tuán)隊(duì)為不同任務(wù)設(shè)計(jì)了“可打分”的訓(xùn)練場景,讓模型的表現(xiàn)可以被客觀評估。
比如對于編碼場景,團(tuán)隊(duì)利用真實(shí)世界的數(shù)據(jù)(如程序競賽題目、GitHub的PR和issue)構(gòu)建任務(wù),并通過自動化測試來驗(yàn)證模型的代碼是否正確運(yùn)行。
第二,除了外部評判,還訓(xùn)練模型自己評估自己,即引入自我評估獎(jiǎng)勵(lì)機(jī)制(Self-Critique Rubric Reward)。
具體而言,模型會將自己的多個(gè)輸出結(jié)果進(jìn)行兩兩比較,并根據(jù)一套明確的標(biāo)準(zhǔn)(如語言清晰度、對話是否連貫、是否啰嗦或拍馬屁)給出獎(jiǎng)勵(lì)分,同時(shí)還引入一些規(guī)則約束(如“不要無腦稱贊用戶”)來避免生成套路化或迎合性回答。
這個(gè)機(jī)制不僅增強(qiáng)了模型的自我反饋能力,也能將客觀任務(wù)中的評估信號遷移到主觀對話場景(如回答開放性問題等人類主觀評判場景),形成閉環(huán)優(yōu)化。
第三,為了更高效、穩(wěn)定地進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,K2還對算法進(jìn)行了多項(xiàng)改進(jìn)。
包括但不限于下面這些:
預(yù)算控制機(jī)制:限制每個(gè)樣本的最大token數(shù),避免生成啰嗦、重復(fù)或無意義的長文本。引入PTX輔助損失:使用高質(zhì)量預(yù)訓(xùn)練樣本時(shí)再加一個(gè)損失項(xiàng),以防模型在RL階段“遺忘”已有知識。溫度衰減策略:訓(xùn)練初期用高溫度鼓勵(lì)模型大膽嘗試、廣泛探索,后期逐步降低溫度,讓模型輸出更穩(wěn)定、更收斂。
最后據(jù)論文介紹,K2的訓(xùn)練依托于由NVIDIA H800構(gòu)成的大規(guī)模高帶寬GPU集群,通過混合并行策略,既保證了訓(xùn)練效率,又能在不同規(guī)模資源下靈活適配。
每個(gè)節(jié)點(diǎn)配備2TB內(nèi)存,并通過NVLink和NVSwitch將8塊GPU在節(jié)點(diǎn)內(nèi)部高速互聯(lián)。不同節(jié)點(diǎn)之間則使用8×400 Gbps的RoCE網(wǎng)絡(luò)互聯(lián),以實(shí)現(xiàn)節(jié)點(diǎn)間的高效通信。
One More Thing
就在剛剛,阿里通義Qwen3模型也更新了——
正式由Qwen3-235B-A22B更新至Qwen3-235B-A22B-2507。
官方表示,他們停用了混合思維模式,改為分別訓(xùn)練Instruct和Thinking模型以提升質(zhì)量,并正式發(fā)布性能更強(qiáng)的 Qwen3-235B-A22B-Instruct-2507及其FP8版本。
而且官方測評顯示,最新版Qwen3又擊敗了Kimi K2模型,開源新王或?qū)⒃俅我字鳌?/p>