作者 | 周一笑郵箱 | zhouyixiao@pingwest.com
Kimi K2的發布幾乎沒什么預兆。
2025年7月11日深夜,月之暗面直接開源了這個萬億參數模型,整個AI圈子一下子就熱鬧起來。模型的能力很強,尤其是在代碼和Agent任務上,沒多久,它就和Grok 4一起出現在了馬斯克轉發的熱門模型趨勢榜單上。
熱度是有了,但這次的感覺和以往很不一樣。
很多人還記得月之暗面曾經在市場投放上花巨額預算的那段時期。根據公開信息,當時為了給產品引流,公司曾在多個平臺進行過激進的競價廣告投放,高峰期月預算達到數億元。
這次Kimi的方式顯然變了,取而代之的是一場更熱鬧也更有趣的線上派對,主角就是Kimi背后那群工程師和研究員。方式就是在國內外技術討論度更高的幾個社交媒體上用自己的方式,熱烈地討論著這個新誕生的“模型”,和自己在其中引以為傲的工作。
這讓我們有機會看到這家公司的一些側面。
1
更通透開放的介紹K2
這場“團建”其中一個重要舞臺在知乎。
在一個提問“Kimi發布首個萬億參數開源模型K2,哪些信息值得關注?”的頁面下,月之暗面的“接生群”成員們,開始陸續下場回答。這里說的“接生群”,是月之暗面內部對K2研發的一個戲稱。
月之暗面Infra團隊的劉少偉沒有繞彎子,他直接承認K2在架構上“大體上是復用了DeepSeek-V3的架構”,并且貼了一張清晰的對比圖。圖里能看到Kimi選擇的路線是“fewer heads, more experts”,也就是用更少的注意力頭和更多的專家模塊。他解釋說,這么做是為了在和V3差不多的成本下,拿到更低的loss。
研究員Flood Sung的分享則充滿了對結果的興奮。他覺得K2最值得關注的有兩點,一個是MuonClip優化器帶來的漂亮loss曲線,另一個就是Agent能力。為了做好Agent,他說團隊建了一個“一生二,二生三,三生萬物”的大規模自動化數據生產工廠。這個比喻聽起來就很有畫面感。這其實也正體現了在“未來誰更接近AGI”這個問題上,Kimi更激進的方向——試圖通過復雜的Agent框架,來直接錘煉模型的思維能力。
負責后訓練的研究員Dylan也帶來了一點不一樣的聲音。他很坦誠地說,K2“實際上就是一個剛出生的baby”,雖然有靈性,但缺點也不少,他自己甚至覺得“略感慚愧”。這些聲音拼在一起,讓隱藏在技術細節背后的K2變得立體起來。
這些分享很快在社區里有了回響。Hugging Face的研究主管Leandro von Werra就在X上說,他個人更喜歡工程師和研究員這種隨性的網絡帖子和討論,因為“這樣更容易愉快地理解他們決策背后的思考過程”。
一個更有意思的現象是,過去很長一段時間,都是國內開發者翻譯國外的技術博客。這次,一些海外開發者開始翻譯閱讀Kimi團隊成員的文章,然后分享到社區。有人評價說,這是一篇“對模型背后思考過程的優美總結/描述” 和一篇“基于能力營銷的精彩反思/宣言”。
這種話語權的微妙變化,都來自Kimi終于“想通了”,從過往對外在技術上并不怎么討論,到開始營造某種類似lab的氣氛,鼓勵大家對外“寫博客”。
1
Moonshot 的 Taste
技術分享之后,Kimi的研究員們開始給這些被吸引來的同行推介自己的公司。方式上主打一個AI創業圈最近很愛聊的“品味”。
月之暗面的團隊成員Crystal在X上的一段話,被很多人轉發。她說“我們的模型叫 Kimi,但公司名叫 Moonshot——靈感來自 Pink Floyd 的專輯《月之暗面》。我們是一群熱愛搖滾(電臺司令、平克·弗洛伊德)和電影(昆汀、庫布里克)的科學家團隊。我加入的一個重要原因就是覺得味道很對味”。
這種味道滲透在公司的各個角落。比如,他們的會議室,名字都取自傳奇樂隊,A到D區是The Rolling Stones、metallica、Bowie、Queen,E到G區則是Radiohead、Guns N' Roses、Nirvana。
“品味”也直接影響著他們的產品哲學。Crystal在一篇博客里復盤了Kimi Researcher的UI設計歷程,講述了團隊如何從模仿精致但平庸的風格,到逐漸意識到真正有價值的設計必須敢于突破常規。他們把這稱為“慘痛教訓”,最終形成的美學標準是拒絕模板化,追求能激發用戶感受的獨特體驗。
類似的細節甚至延伸到了App Store的版本更新歷史里。
有網友挖出,Kimi的更新日志里引用了哲學家維特根斯坦和記者菲利普·格雷厄姆的話,把這些細節也與Kimi的品味結合起來,稱它是“所有AI實驗室中品味最佳”的。
工程師們的日常分享也充滿了幽默感和人情味。有人會玩技術諧音梗,在一條討論PyTorch新優化器Muon的推文下,俏皮地回復“to the ‘Muon’”。
也有一些能展現內部工作狀態的段子。比如,Kimi用來推理的GPU在深夜會進入一種叫“潮汐GPU”的閑置狀態,用來跑訓練任務。但K2火了之后,“殘酷現實”是“Tide GPU已售罄”。還有人分享內部對話,說想找個速度更快的K2爽一下,被告知“不行,因為沒卡”,想加錢也被拒了,理由還是“因為沒卡”。
Kimi團隊的這場線上“團建”,就這樣持續了幾天。它既有來自Infra和算法團隊的技術硬核,也有貫穿在各個細節里的文化品味。但更多的,可能是那種團隊上下都藏不住的喜悅和自豪感。蟄伏許久之后,他們終于有了再一次證明自己技術實力的機會。
這種情緒,也體現在團隊成員們在X上刷屏似地轉發著各類KOL和開發者對K2的贊賞。
“年初 DeepSeek-R1 暴漲之后,很多人說 kimi 是不是不行了,你們是不是恨死 DeepSeek 了?恰恰相反,不少同事都認為 DeepSeek-R1 的爆火是個大好事, 它證明了硬實力就是最好的推廣,只要模型做的好,就會獲得市場認可;他證明了那條我們相信的路不僅能走通,而且是一條康莊大道。 唯一的遺憾就是:這條路不是我們走通的。”Kimi的研究員“熊貍”在博客里寫道。
“在年初的反思會上,我提出了一些相當激進的建議,沒想到植麟后續的行動比我想的還要激進,比如不再更新 K1 系列模型,集中資源搞基礎算法和 K2。”他寫道。
“2025 年,智能的上限仍然完全由模型決定,作為一家以 AGI 為目標的公司,如果不去追求智能的上限,那我一天也不會多呆下去。”
與過往靠投放來放大產品上的聲量相比,回歸到一個預訓練模型競技場里,硬碰硬和最主流模型競爭,然后把自己的研究體驗和成果分享給整個技術社區,顯然是這些研究員們更能有成就感的方式。而這種方式也是整個技術社區最容易接受和喜歡的方式。
就像團隊成員Haobing在他的推文里寫下的那句“No structure, just pure intelligence. I'm truly proud to be a part of Kimi”。K2對于月暗的意義不只是一個模型,它讓這家公司的人們又“活”了起來。
點個愛心,再走 吧