日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

?LeCun剛點贊「全球最快開源AI推理模型」,ETH蘇黎世實驗室3天后即提出質疑?

   時間:2025-09-16 02:08:46 來源:ITBEAR編輯:快訊團隊 IP:北京 發表評論無障礙通道
 

一款名為K2-Think的開源AI推理模型近日引發科技圈震動,其開發者宣稱該模型以320億參數實現了與OpenAI旗艦模型o3 high相當的數學能力,并憑借每秒2000個token的推理速度成為"全球最快開源模型"。這項由MBZUAI與G42聯合發布的研究成果迅速獲得福布斯、CNBC等國際媒體關注,圖靈獎得主Yann LeCun更親自轉發相關論文,但三天后蘇黎世聯邦理工學院(ETH)的研究團隊卻拋出重磅質疑。

研究團隊在技術博客中指出,K2-Think的基準測試存在嚴重數據污染問題。其使用的DeepScaleR訓練數據集包含Omni-Math數學題庫,而評估環節又使用了相同題庫中的173道題目,其中87道與訓練數據高度重合。在代碼基準LiveCodeBench測試中,更發現22%的評估樣本早已出現在訓練集中,盡管原數據集作者已進行去重處理,但K2-Think團隊仍使用了包含這些重復樣本的完整測試集。

評估方法論層面,ETH團隊發現開發者采用"三選一"(Best-of-3)策略提升表現,即通過外部模型從三次生成結果中篩選最優答案。這種策略使K2-Think的評估結果顯著優于采用"單次生成"(Best-of-1)的其他模型。更爭議的是,這個未公開規模的外部模型不僅參與結果篩選,還為K2-Think提供解題規劃,而論文卻將整套流程歸功于320億參數的主模型。

在對比實驗中,研究團隊發現K2-Think存在刻意弱化競品表現的情況。例如評估GPT-OSS時僅使用"中等"推理強度,而非推薦的"高強度"設置;對Qwen3模型的評估則采用過時版本,導致其得分比官方最新版本低15-20%。在數學基準權重分配上,開發者通過"微觀平均值"計算法,使存在數據污染的Omni-Math測試集占據總評分的66%,人為放大了模型表現。

ETH團隊在自有MathArena基準上進行的獨立測試顯示,去除外部輔助后,K2-Think的數學能力不僅落后于DeepSeek V3.1和GPT-OSS 120B,甚至不及參數規模更小的GPT-OSS 20B模型。測試采用與K2-Think論文相同的超參數設置,輸出64000個token進行評估,結果直接挑戰了開發者宣稱的"顛覆Scaling Law"的論斷。

這場學術爭議暴露出AI基準測試領域的深層問題。研究團隊指出,當前評測體系催生出"刷榜文化",部分團隊通過數據污染、選擇性對比和評估策略優化等手段制造性能假象。這種"田忌賽馬"式的測評策略雖然能在特定基準上取得高分,但會誤導行業研究方向,尤其對依賴公開數據的開源社區造成負面影響。隨著ETH團隊的詳細技術報告在網絡流傳,這場關于AI模型評估可靠性的討論仍在持續發酵。

 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  爭議稿件處理  |  English Version
 
日本精品一区二区三区高清 久久
欧美日韩在线免费| 日韩午夜激情电影| 亚洲国产日韩欧美| 美国十次成人| 亚洲另类视频| 欧美噜噜久久久xxx| 亚洲国产欧美一区| 欧美精品v日韩精品v韩国精品v| 亚洲第一偷拍| 国产精品剧情在线亚洲| 久久综合九色综合网站| 亚洲精品一区二区三区99| 欧美日韩在线三区| 午夜欧美理论片| 亚洲欧洲一区二区三区久久| 国产精品久久999| 欧美激情精品久久久久久| 亚洲欧美伊人| 亚洲最新在线视频| 亚洲国产日韩在线| 国产一区在线播放| 国产日韩av一区二区| 欧美大秀在线观看| 久久亚洲国产成人| 欧美一二区视频| 亚洲综合大片69999| 中文国产成人精品| 亚洲一二三级电影| 亚洲免费视频在线观看| 亚洲在线网站| 欧美一区1区三区3区公司| 亚洲尤物在线| 亚洲一二三四久久| 性久久久久久久久| 欧美日韩国产区| 91久久线看在观草草青青| 国产午夜精品一区理论片飘花 | 国产精品自拍小视频| 亚洲欧美日本日韩| 国产一区二区久久久| 国产欧美日韩在线| 亚洲欧美在线另类| 欧美成人午夜剧场免费观看| 亚洲精品看片| 国产亚洲精品aa| 国产精品青草久久| 国产精品99免费看 | 狠狠操狠狠色综合网| 欧美激情中文字幕乱码免费| 欧美h视频在线| 免费久久精品视频| 免费在线观看精品| 欧美日韩国产色视频| 欧美三级韩国三级日本三斤| 久久久高清一区二区三区| 欧美va亚洲va国产综合| 欧美精品在线一区| 欧美精品在线观看播放| 亚洲性视频网站| 亚洲深爱激情| 美女黄毛**国产精品啪啪| 欧美人交a欧美精品| 亚洲午夜久久久| 久久夜色精品国产欧美乱极品| 免费av成人在线| 国产乱码精品| av成人毛片| 欧美日韩国产电影| 一区二区在线观看视频| 午夜国产精品视频免费体验区| 久久综合国产精品| 欧美视频不卡| 亚洲毛片视频| 欧美精品一区二区三区在线播放| 国产日韩欧美制服另类| 亚洲一区二区高清| 欧美另类一区二区三区| 激情欧美国产欧美| 久久精品亚洲一区二区| 国产午夜精品美女视频明星a级 | 国产精品免费在线| 亚洲全部视频| 久久精品一二三| 国内精品一区二区| 亚洲影视中文字幕| 欧美午夜理伦三级在线观看| 一二三四社区欧美黄| 欧美日韩999| 亚洲一区激情| 国产亚洲激情| 国产欧美一级| 亚洲欧美制服中文字幕| 老司机午夜精品视频在线观看| 激情成人av在线| 欧美国产日韩视频| 亚洲一区二区三区精品在线| 免费成人美女女| 在线观看成人av电影| 欧美日韩国产精品专区| 欧美国内亚洲| 狠狠色狠狠色综合| 亚洲欧美久久| 久久精品国产免费观看| 欧美激情国产日韩精品一区18| 欧美精品观看| 欧美第十八页| 亚洲国产日韩欧美综合久久| 国产精品人人做人人爽| 国产区二精品视| 亚洲精品视频二区| 日韩一级网站| 一区二区精品在线观看| 免费一级欧美在线大片| 亚洲一区成人| 91久久综合| 欧美三级电影大全| 日韩视频中午一区| 亚洲国产精品综合| 狠狠干综合网| 国产自产高清不卡| 国产精品a久久久久| 欧美在线91| 亚洲精品在线免费| 亚洲国产精品一区二区三区| 韩日在线一区| 国内精品一区二区三区| 国产综合久久久久久| 国产日本欧美一区二区三区| 国产婷婷97碰碰久久人人蜜臀| 国产女精品视频网站免费| 国产一区二区三区在线免费观看 | 亚洲美女在线视频| 国模一区二区三区| 在线观看精品一区| 国产精品中文字幕欧美| 国产精品久久毛片a| 国产在线日韩| 日韩亚洲在线观看| 亚洲精品国精品久久99热一| 黑人极品videos精品欧美裸| 亚洲高清资源| 亚洲免费一区二区| 国产一区二区中文| 亚洲精品综合| 欧美国产精品专区| 国产日韩欧美黄色| 艳妇臀荡乳欲伦亚洲一区| 久久国产精品99国产| 欧美精品日韩| 一区二区三区在线视频观看| 极品尤物av久久免费看| 午夜精品福利在线| 欧美日韩精品一二三区| 激情综合网激情| aa日韩免费精品视频一| 在线欧美电影| 亚洲美女黄网| 亚洲一区二区三区免费在线观看| 欧美成人黑人xx视频免费观看| 国产在线乱码一区二区三区| 亚洲男女自偷自拍| 欧美亚州一区二区三区| 亚洲五月六月| 国内自拍亚洲| 欧美激情精品久久久久久蜜臀 | 久久综合伊人77777麻豆| 国产日产欧产精品推荐色 | 欧美日韩情趣电影| 欧美在线观看一区| 欧美激情二区三区| 国产亚洲午夜| 在线观看福利一区| 亚洲国产精品毛片| 亚洲国产日韩综合一区| 亚洲精品久久久蜜桃| 曰本成人黄色| 国产综合亚洲精品一区二| 国产精品免费小视频| 国产视频在线观看一区| 亚洲第一区中文99精品| 久久综合伊人77777| 免费在线成人| 伊人久久大香线蕉综合热线| 国产精品伦理| 激情欧美一区二区| 国产精品vip| 乱码第一页成人| 欧美成人性网| 久久视频精品在线| 午夜欧美大片免费观看| 亚洲精品极品| 99视频精品| 亚洲欧美制服中文字幕| 99riav1国产精品视频| 在线成人激情视频| 国产视频一区在线观看| 国产精品日本精品| 国产亚洲欧美激情| 一区二区三区在线视频观看| 欧美日韩国产色综合一二三四|