滾動資訊

當前位置：首頁 > 資訊 > 信息流 > 正文內容

?LeCun剛點贊「全球最快開源AI推理模型」，ETH蘇黎世實驗室3天后即提出質疑?

時間：2025-09-16 02:08:46 來源：ITBEAR編輯：快訊團隊 IP：北京 發表評論無障礙通道

一款名為K2-Think的開源AI推理模型近日引發科技圈震動，其開發者宣稱該模型以320億參數實現了與OpenAI旗艦模型o3 high相當的數學能力，并憑借每秒2000個token的推理速度成為"全球最快開源模型"。這項由MBZUAI與G42聯合發布的研究成果迅速獲得福布斯、CNBC等國際媒體關注，圖靈獎得主Yann LeCun更親自轉發相關論文，但三天后蘇黎世聯邦理工學院（ETH）的研究團隊卻拋出重磅質疑。

研究團隊在技術博客中指出，K2-Think的基準測試存在嚴重數據污染問題。其使用的DeepScaleR訓練數據集包含Omni-Math數學題庫，而評估環節又使用了相同題庫中的173道題目，其中87道與訓練數據高度重合。在代碼基準LiveCodeBench測試中，更發現22%的評估樣本早已出現在訓練集中，盡管原數據集作者已進行去重處理，但K2-Think團隊仍使用了包含這些重復樣本的完整測試集。

評估方法論層面，ETH團隊發現開發者采用"三選一"（Best-of-3）策略提升表現，即通過外部模型從三次生成結果中篩選最優答案。這種策略使K2-Think的評估結果顯著優于采用"單次生成"（Best-of-1）的其他模型。更爭議的是，這個未公開規模的外部模型不僅參與結果篩選，還為K2-Think提供解題規劃，而論文卻將整套流程歸功于320億參數的主模型。

在對比實驗中，研究團隊發現K2-Think存在刻意弱化競品表現的情況。例如評估GPT-OSS時僅使用"中等"推理強度，而非推薦的"高強度"設置；對Qwen3模型的評估則采用過時版本，導致其得分比官方最新版本低15-20%。在數學基準權重分配上，開發者通過"微觀平均值"計算法，使存在數據污染的Omni-Math測試集占據總評分的66%，人為放大了模型表現。

ETH團隊在自有MathArena基準上進行的獨立測試顯示，去除外部輔助后，K2-Think的數學能力不僅落后于DeepSeek V3.1和GPT-OSS 120B，甚至不及參數規模更小的GPT-OSS 20B模型。測試采用與K2-Think論文相同的超參數設置，輸出64000個token進行評估，結果直接挑戰了開發者宣稱的"顛覆Scaling Law"的論斷。

這場學術爭議暴露出AI基準測試領域的深層問題。研究團隊指出，當前評測體系催生出"刷榜文化"，部分團隊通過數據污染、選擇性對比和評估策略優化等手段制造性能假象。這種"田忌賽馬"式的測評策略雖然能在特定基準上取得高分，但會誤導行業研究方向，尤其對依賴公開數據的開源社區造成負面影響。隨著ETH團隊的詳細技術報告在網絡流傳，這場關于AI模型評估可靠性的討論仍在持續發酵。

更多>同類資訊

羅永浩犀利回懟西貝致歉：稱顧客非黑社會，質疑預制菜承諾及稅率問題

09-16

西貝沖刺IPO遇阻：資本倒逼、增長乏力、消費低迷下的“生死時速”

09-16

6000萬咨詢費背后：華與華與西貝十年合作，成功與爭議并存

09-16

?西貝“預制菜”風波后致歉：從消費者視角出發，重建信任之路?

09-16

賈國龍預制菜風波后，A股預制菜股大漲，行業標準落地能否重燃煙火氣？

09-16

《2024跨境電商白皮書》：產品創新如何破局同質化困境？

09-16

山東亞歷山大公司發力：自主研發句芒系統，為機器人裝上國產“神經”

亞歷山大公司董事長周軍介紹，長期以來，我國大量機器人研發團隊依賴美國的ROS系統開展工作，該系統雖然為我國機器人行業的起步與發展提供了重要支撐，但其在工業化應用場景中實時響應、功能定制、安全機制及硬件適配等方…

09-15

?格物優信高速顯微熱像儀：賦能航空科研，助防除冰技術登頂《ADVANCED MATERIALS》?

這項突破性進展的背后，格物優信高速顯微紅外熱像儀型號 X640H150UM25發揮了關鍵作用，該科研熱成像設備憑借其高精度、高幀率、高清、顯微成像能力，有效解決了防除冰技術研究過程中水滴結冰瞬時溫度的核心觀測…

09-15

喜鵲窩有何獨特之處？外部堅固耐用，內部設計盡顯“智慧”與巧思

喜鵲的巢穴通常規模大、結構堅固且設計獨特，與大多數鳥類的敞開式巢穴不同，很多喜鵲會建造帶側門的圓頂巢。在這些地方，它們有時會放棄圓頂巢，轉而建造開放式巢穴。雖然喜鵲在自然界中偶爾會捕食其他鳥類幼崽和蛋，因…

09-15

?我國科研團隊創新溶液法制備“銅鋅錫硫硒”薄膜光伏轉化效率破局達10.1%?

記者從南京郵電大學獲悉，該校柔性電子全國重點實驗室黃維院士和辛顥教授團隊，用溶液法獲得大面積“銅鋅錫硫硒”光伏薄膜，并以10.1%的光電轉化效率，驗證了無機化合物制備柔性光伏材料的產業化潛力。辛顥告訴記者，2…

09-15

NASA禁令下的中美登月角力：中國航天自主創新穩步邁向2030登月目標

09-15

美聯邦航空管理局提議：波音因多項安全違規或面臨310萬美元罰款

09-15

天龍三號液體火箭海上試車成功，推力創新高，開啟商業航天陸海協同新篇章

09-15

北京時間2025年9月：天龍三號火箭海上試車刷新國內商業航天液體火箭推力紀錄

09-15

力箭二號船箭試驗雙成功，首飛及輕舟貨運飛船初樣試飛船發射迎沖刺

09-15

點擊查看更多 +

全站最新

小米手機官博頭像“劇透”新機，三攝搭配全尺寸背屏或為17 Pro系列

華為Mate XTs手寫筆套裝官宣：9月16日開售，16GB+1TB配置，折疊大屏新體驗

小米HyperOS 3測試擴至超80款機型融合創新與互聯或重塑市場格局

魅族22深度體驗：6.3英寸黃金尺寸下，性能影像續航如何實現全面均衡？

華為Mate X5降價5469元成“性價比之選”！輕薄大屏+鴻蒙系統，老旗艦煥發新魅力

華為靳玉志新疆督戰夏測：華為乾崑攜手猛士，智能越野車經受高溫極限考驗

熱門內容

本欄最新

《2024跨境電商白皮書》：產品創新如何破局同質化困境？

山東亞歷山大公司發力：自主研發句芒系統，為機器人裝上國產“神經”

?格物優信高速顯微熱像儀：賦能航空科研，助防除冰技術登頂《ADVANCED MATERIALS》?

喜鵲窩有何獨特之處？外部堅固耐用，內部設計盡顯“智慧”與巧思

?我國科研團隊創新溶液法制備“銅鋅錫硫硒”薄膜光伏轉化效率破局達10.1%?

NASA禁令下的中美登月角力：中國航天自主創新穩步邁向2030登月目標

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 商業合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

?LeCun剛點贊「全球最快開源AI推理模型」，ETH蘇黎世實驗室3天后即提出質疑?

日本精品一区二区三区高清久久

?LeCun剛點贊「全球最快開源AI推理模型」，ETH蘇黎世實驗室3天后即提出質疑?