月之暗面公司近日正式推出了其最新研發的Kimi-k2 thinking模型,這款具備通用智能體能力和深度推理功能的思考模型,標志著AI技術在復雜問題解決領域邁出了重要一步。該模型通過多輪工具調用機制,能夠高效應對編程、數學及邏輯推理等領域的挑戰性任務。
作為Kimi K2系列的最新迭代,此次發布的模型在7月11日首發的10000億參數基礎上,通過9月5日發布的Kimi K2-0905版本實現了核心能力升級。新版本不僅強化了智能編碼能力,支持256K長文本處理,還將API輸出速度提升至每秒60-100Token,并兼容Claude Code技術標準。在定價策略上,基礎版每百萬輸入token(緩存未命中)收費4元,輸出收費16元;針對高速運算場景推出的turbo版本,輸入價格提升至8元,輸出價格達58元。
在實際測試環節,研發團隊重點考察了模型在三個關鍵領域的能力表現。在編程測試中,要求生成包含導航欄、主體展示區及兩個特色功能的開源模型分享網站原型。生成的HTML頁面不僅完整實現了所有功能模塊,搜索框、按鈕等交互元素均可正常使用,點擊上傳模型按鈕會彈出文件格式及大小限制提示。整個項目生成耗時約3分鐘,消耗9K token,但在多次測試中偶爾出現程序崩潰現象。
數學能力測試選取了2025年國際數學奧林匹克競賽最具挑戰性的第六題。基礎版模型經過4分鐘運算,在21188字的思考過程中給出了4048的錯誤答案(正確答案為2112),消耗23.5K token。升級至turbo版本后,雖然運算時間縮短至2分鐘,但token消耗量激增至38.5K,且答案依然錯誤。面對另一道IMO競賽題時,模型在深度思考10余分鐘后停止運算,兩次嘗試均卡在47000字左右的思考節點未能給出答案。由于缺乏圖片識別能力,復雜數學公式的輸入成為制約模型表現的瓶頸。
在邏輯推理測試中,模型展現出較強的基礎認知能力,能夠快速識別并規避常見邏輯陷阱。面對進階型推理題目時,模型可在1分鐘內給出準確答案,單次推理消耗約16.6K token。測試表明,該模型在處理需要多步驟推導的復雜問題時,仍存在運算穩定性不足的問題。
值得關注的是,就在月之暗面發布新模型前兩天,阿里云剛推出Qwen 3系列最強推理模型Qwen3-Max-Thinking的早期預覽版。兩家科技企業接連在智能推理領域發力,反映出當前AI行業競爭焦點正從基礎能力建設轉向復雜問題解決能力的深度開發。隨著智能體技術成為行業主流發展方向,模型的推理運算能力將成為衡量AI實用價值的核心指標。











