日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

萬億參數(shù)大模型Kimi K2開源,月之暗面研發(fā)團(tuán)隊(duì)揭秘研發(fā)歷程

   時(shí)間:2025-07-15 23:32:34 來源:ITBEAR編輯:快訊團(tuán)隊(duì) IP:北京 發(fā)表評論無障礙通道

國內(nèi)AI領(lǐng)域的新星月之暗面,近期推出了其最新的MoE架構(gòu)基礎(chǔ)模型——Kimi K2,該模型參數(shù)量高達(dá)1萬億,瞬間在行業(yè)內(nèi)引起了廣泛關(guān)注。Kimi團(tuán)隊(duì)內(nèi)部親切地將負(fù)責(zé)K2研發(fā)的團(tuán)隊(duì)稱為“接生群”,而這群研發(fā)人員也在知乎上積極分享了K2誕生的幕后故事。

作為月之暗面基礎(chǔ)設(shè)施側(cè)推理團(tuán)隊(duì)的成員,知乎用戶劉少偉詳細(xì)闡述了K2模型結(jié)構(gòu)的設(shè)計(jì)理念。他指出,K2是在DeepSeek V3結(jié)構(gòu)的基礎(chǔ)上進(jìn)行了優(yōu)化,通過精心選擇參數(shù),使得模型在保持與V3相當(dāng)?shù)挠?xùn)練和推理成本的同時(shí),實(shí)現(xiàn)了更低的loss。劉少偉強(qiáng)調(diào),這些改進(jìn)使得K2在相同EP數(shù)量下,盡管總參數(shù)增加到V3的1.5倍,但理論上的預(yù)填充和解碼耗時(shí)卻有所減少。

月之暗面的另一位研究員Flood Sung則在知乎上分享了Kimi K2的兩大亮點(diǎn):MuonClip帶來的顯著loss曲線下降以及卓越的Agent能力。為了實(shí)現(xiàn)更好的通用Agent功能,F(xiàn)lood Sung透露,團(tuán)隊(duì)構(gòu)建了一個(gè)全自動(dòng)化的agent數(shù)據(jù)生產(chǎn)流水線,通過全流程模擬篩選出高質(zhì)量的Agent軌跡數(shù)據(jù)。他形象地比喻這個(gè)流水線為“一生二,二生三,三生萬物”,完美體現(xiàn)了老子的哲學(xué)思想。

關(guān)于Kimi K2選擇開源的決定,月之暗面的研發(fā)人員Justin Wong在知乎上給出了答案。他認(rèn)為,開源能夠借助社區(qū)的力量來完善技術(shù)生態(tài)。事實(shí)上,K2開源后不到24小時(shí),社區(qū)就已經(jīng)實(shí)現(xiàn)了K2的MLX版本和4bit量化等,這些都是月之暗面團(tuán)隊(duì)單憑自身人力難以完成的。而另一位研究員Dylan則更為謙遜地表示,K2雖然展現(xiàn)出了一定的潛力,但與許多已經(jīng)成熟的前沿模型相比,仍有許多明顯的不足。他作為后訓(xùn)練團(tuán)隊(duì)的一員,希望能在后續(xù)的版本迭代中持續(xù)挖掘K2基礎(chǔ)模型的潛力。

值得注意的是,近年來,越來越多的開發(fā)者在發(fā)布AI成果的同時(shí),選擇在知乎上分享背后的思考和過程。此前,月之暗面發(fā)布的一款A(yù)gent產(chǎn)品以及開源的MoBA框架,也都由主要研發(fā)人員在知乎上親自解答,引發(fā)了業(yè)界對相關(guān)技術(shù)的深入討論。

舉報(bào) 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  開放轉(zhuǎn)載  |  滾動(dòng)資訊  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 长乐市| 阳山县| 呼玛县| 屯门区| 宜昌市| 玉山县| 桦甸市| 新乐市| 米脂县| 华坪县| 南丹县| 昭平县| 东山县| 延边| 杭锦后旗| 资源县| 中超| 乐亭县| 华蓥市| 贵港市| 平乐县| 洛南县| 车致| 安平县| 正蓝旗| 原平市| 宁化县| 桐乡市| 余姚市| 满城县| 芦山县| 翁源县| 惠州市| 寿阳县| 永德县| 二手房| 临海市| 澳门| 津南区| 蒲江县| 桦川县|