一款名為K2-Think的開源AI推理模型近日引發科技圈震動,其開發者宣稱該模型以320億參數實現了與OpenAI旗艦模型o3 high相當的數學能力,并憑借每秒2000個token的推理速度成為"全球最快開源模型"。這項由MBZUAI與G42聯合發布的研究成果迅速獲得福布斯、CNBC等國際媒體關注,圖靈獎得主Yann LeCun更親自轉發相關論文,但三天后蘇黎世聯邦理工學院(ETH)的研究團隊卻拋出重磅質疑。
研究團隊在技術博客中指出,K2-Think的基準測試存在嚴重數據污染問題。其使用的DeepScaleR訓練數據集包含Omni-Math數學題庫,而評估環節又使用了相同題庫中的173道題目,其中87道與訓練數據高度重合。在代碼基準LiveCodeBench測試中,更發現22%的評估樣本早已出現在訓練集中,盡管原數據集作者已進行去重處理,但K2-Think團隊仍使用了包含這些重復樣本的完整測試集。
評估方法論層面,ETH團隊發現開發者采用"三選一"(Best-of-3)策略提升表現,即通過外部模型從三次生成結果中篩選最優答案。這種策略使K2-Think的評估結果顯著優于采用"單次生成"(Best-of-1)的其他模型。更爭議的是,這個未公開規模的外部模型不僅參與結果篩選,還為K2-Think提供解題規劃,而論文卻將整套流程歸功于320億參數的主模型。
在對比實驗中,研究團隊發現K2-Think存在刻意弱化競品表現的情況。例如評估GPT-OSS時僅使用"中等"推理強度,而非推薦的"高強度"設置;對Qwen3模型的評估則采用過時版本,導致其得分比官方最新版本低15-20%。在數學基準權重分配上,開發者通過"微觀平均值"計算法,使存在數據污染的Omni-Math測試集占據總評分的66%,人為放大了模型表現。
ETH團隊在自有MathArena基準上進行的獨立測試顯示,去除外部輔助后,K2-Think的數學能力不僅落后于DeepSeek V3.1和GPT-OSS 120B,甚至不及參數規模更小的GPT-OSS 20B模型。測試采用與K2-Think論文相同的超參數設置,輸出64000個token進行評估,結果直接挑戰了開發者宣稱的"顛覆Scaling Law"的論斷。
這場學術爭議暴露出AI基準測試領域的深層問題。研究團隊指出,當前評測體系催生出"刷榜文化",部分團隊通過數據污染、選擇性對比和評估策略優化等手段制造性能假象。這種"田忌賽馬"式的測評策略雖然能在特定基準上取得高分,但會誤導行業研究方向,尤其對依賴公開數據的開源社區造成負面影響。隨著ETH團隊的詳細技術報告在網絡流傳,這場關于AI模型評估可靠性的討論仍在持續發酵。