滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

OpenAI o3模型實測分數引爭議，透明度與測試標準成焦點

時間：2025-04-21 08:09:47 來源：ITBEAR編輯：快訊團隊 IP：北京 發表評論無障礙通道

近期，關于OpenAI的o3人工智能模型在基準測試上的表現引發了廣泛關注與討論。爭議的核心在于，OpenAI首次發布o3模型時公布的測試結果與外界第三方機構的測試結果存在顯著差異。

去年12月，OpenAI自豪地宣布，其o3模型在極具難度的FrontierMath數學問題集上取得了突破性成績，正確率超過四分之一，遠超其他競爭對手。OpenAI首席研究官Mark Chen在直播中強調，這一成績是在內部激進測試條件下，使用資源更為強大的o3模型版本所得出的。

然而，事情并未如此簡單。負責FrontierMath的Epoch研究所隨后公布的獨立基準測試結果顯示，公開發布的o3模型得分僅為約10%，遠低于OpenAI宣稱的分數。這一發現立即引發了外界對OpenAI透明度和測試實踐的質疑。

值得注意的是，OpenAI在12月公布的測試結果中確實包含了一個與Epoch測試結果相符的較低分數。Epoch在報告中指出，測試設置的差異、評估使用的FrontierMath版本更新，以及可能的計算資源和框架不同，都可能是導致結果差異的原因。

ARC Prize基金會也在X平臺上發布消息，進一步證實了Epoch的報告。ARC Prize指出，公開發布的o3模型是一個針對聊天和產品使用進行了調整的不同版本，且所有發布的o3計算層級都比預發布版本要小。這意味著，盡管o3模型在內部測試中取得了高分，但公開發布的版本在性能上有所妥協。

盡管如此，OpenAI并未因此止步。該公司后續推出的o3-mini-high和o4-mini模型在FrontierMath上的表現已經超越了最初的o3模型。同時，OpenAI還計劃在未來幾周內推出更強大的o3版本——o3-pro。

然而，這一系列事件再次凸顯了人工智能基準測試結果的復雜性和不確定性。尤其是當這些結果來自有產品需要銷售的公司時，外界對其真實性和可靠性的質疑聲往往會更加響亮。隨著人工智能行業的競爭加劇，各供應商紛紛急于推出新模型以吸引眼球和市場份額，基準測試“爭議”正變得越來越普遍。

事實上，類似的爭議并非個例。今年1月，Epoch因在OpenAI宣布o3之后才披露其從OpenAI獲得的資金支持而受到批評。許多為FrontierMath做出貢獻的學者直到公開時才知道OpenAI的參與。而最近，埃隆·馬斯克的xAI也被指控為其最新的人工智能模型Grok 3發布了誤導性的基準測試圖表。就在本月，meta也承認其宣傳的基準測試分數所基于的模型版本與提供給開發者的版本不一致。

舉報 0 收藏 0 打賞 0評論 0

更多>同類資訊

黃仁勛論AI與就業：程序員崗位或淘汰，但就業恐慌不必有

06-14

新石器無人車關聯公司股權遭凍結，創始人余恩源19.98萬股權被鎖三年

06-14

蘿卜快跑上海新公司成立，注冊資本達百萬，經營范圍廣泛

06-14

Scale AI創始人王加盟Meta，143億美金交易背后的AI版圖擴張

06-14

騰訊CVPR2025放大招：混元3D 2.1大模型全鏈路開源

06-14

我國侵入式腦機接口技術取得突破，成功開展首例臨床試驗

06-14

火山引擎：大模型賽道上的“價格屠夫”，能否彎道超車百度云？

06-14

AI算力板塊波動背后：國產算力未來何在？

06-14

蘿卜快跑上海新公司啟航，自動駕駛出行領域再添一員

06-14

360納米AI超級搜索：周鴻祎稱智能體引領AI新篇章

06-13

Gartner展望：生成AI應用將依托數據管理，交付時間減半

06-13

AI伴侶成新寵？六成受訪者稱“人機戀”不算出軌

06-13

3D打印心臟血管大突破，人工器官替換時代真的來了？

06-13

印度AI領域職位空缺超4.5萬，高薪機遇涌現，你準備好了嗎？

06-13

新石器無人車創始人股權遭凍結，背后原因引人猜想

06-13

點擊查看更多 +

全站最新

趙福全論AI：從量變到質變，開啟碳基硅基雙生命新紀元？

吉利雷神AI電混2.0：以AI之名，重塑電混技術新篇章

小米SU7剎車盤生銹引熱議，官方詳解除銹措施及電池安全標準

小鵬G7預售火爆，股價為何反跌6%？市場勝利還需時間檢驗

小米SU7剎車盤生銹引熱議，官方詳解雨季用車指南！

奇瑞電動汽車亮相荷蘭海牙，商場路演吸引民眾目光

熱門內容

本欄最新

黃仁勛論AI與就業：程序員崗位或淘汰，但就業恐慌不必有

Scale AI創始人王加盟Meta，143億美金交易背后的AI版圖擴張

蘿卜快跑上海新公司啟航，自動駕駛出行領域再添一員

360納米AI超級搜索：周鴻祎稱智能體引領AI新篇章

新石器無人車創始人股權遭凍結，背后原因引人猜想

蘋果AI進展緩慢，庫克堅持混動路線能否領跑未來？

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 商業合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

OpenAI o3模型實測分數引爭議，透明度與測試標準成焦點

日本精品一区二区三区高清久久