國內(nèi)AI領(lǐng)域的新星月之暗面,近期推出了其最新的MoE架構(gòu)基礎(chǔ)模型——Kimi K2,該模型參數(shù)量高達(dá)1萬億,瞬間在行業(yè)內(nèi)引起了廣泛關(guān)注。Kimi團(tuán)隊(duì)內(nèi)部親切地將負(fù)責(zé)K2研發(fā)的團(tuán)隊(duì)稱為“接生群”,而這群研發(fā)人員也在知乎上積極分享了K2誕生的幕后故事。
作為月之暗面基礎(chǔ)設(shè)施側(cè)推理團(tuán)隊(duì)的成員,知乎用戶劉少偉詳細(xì)闡述了K2模型結(jié)構(gòu)的設(shè)計(jì)理念。他指出,K2是在DeepSeek V3結(jié)構(gòu)的基礎(chǔ)上進(jìn)行了優(yōu)化,通過精心選擇參數(shù),使得模型在保持與V3相當(dāng)?shù)挠?xùn)練和推理成本的同時(shí),實(shí)現(xiàn)了更低的loss。劉少偉強(qiáng)調(diào),這些改進(jìn)使得K2在相同EP數(shù)量下,盡管總參數(shù)增加到V3的1.5倍,但理論上的預(yù)填充和解碼耗時(shí)卻有所減少。
月之暗面的另一位研究員Flood Sung則在知乎上分享了Kimi K2的兩大亮點(diǎn):MuonClip帶來的顯著loss曲線下降以及卓越的Agent能力。為了實(shí)現(xiàn)更好的通用Agent功能,F(xiàn)lood Sung透露,團(tuán)隊(duì)構(gòu)建了一個(gè)全自動(dòng)化的agent數(shù)據(jù)生產(chǎn)流水線,通過全流程模擬篩選出高質(zhì)量的Agent軌跡數(shù)據(jù)。他形象地比喻這個(gè)流水線為“一生二,二生三,三生萬物”,完美體現(xiàn)了老子的哲學(xué)思想。
關(guān)于Kimi K2選擇開源的決定,月之暗面的研發(fā)人員Justin Wong在知乎上給出了答案。他認(rèn)為,開源能夠借助社區(qū)的力量來完善技術(shù)生態(tài)。事實(shí)上,K2開源后不到24小時(shí),社區(qū)就已經(jīng)實(shí)現(xiàn)了K2的MLX版本和4bit量化等,這些都是月之暗面團(tuán)隊(duì)單憑自身人力難以完成的。而另一位研究員Dylan則更為謙遜地表示,K2雖然展現(xiàn)出了一定的潛力,但與許多已經(jīng)成熟的前沿模型相比,仍有許多明顯的不足。他作為后訓(xùn)練團(tuán)隊(duì)的一員,希望能在后續(xù)的版本迭代中持續(xù)挖掘K2基礎(chǔ)模型的潛力。
值得注意的是,近年來,越來越多的開發(fā)者在發(fā)布AI成果的同時(shí),選擇在知乎上分享背后的思考和過程。此前,月之暗面發(fā)布的一款A(yù)gent產(chǎn)品以及開源的MoBA框架,也都由主要研發(fā)人員在知乎上親自解答,引發(fā)了業(yè)界對相關(guān)技術(shù)的深入討論。