滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

OpenAI o3模型實測分數引爭議，透明度與測試標準成焦點

時間：2025-04-21 11:37:15 來源：ITBEAR編輯：快訊團隊 發表評論無障礙通道

近期，關于OpenAI的o3人工智能模型在基準測試上的表現引發了廣泛討論和質疑。這一爭議的核心在于，OpenAI首次發布o3模型時宣布的高分成績與第三方基準測試結果之間存在較大差異。

去年12月，OpenAI自豪地宣布，其o3模型在極具挑戰性的數學問題集FrontierMath上取得了突破性的成績，正確回答了超過四分之一的問題。這一成績遠超競爭對手，排名第二的模型僅能正確回答約2%的問題。OpenAI首席研究官Mark Chen在直播中強調，o3模型在內部測試中，通過激進的計算設置，達到了超過25%的正確率，遠超市場上所有其他產品。

然而，事情似乎并沒有那么簡單。上周五，負責FrontierMath的Epoch研究所公布了其對o3模型的獨立基準測試結果，發現o3的得分僅為約10%，遠低于OpenAI此前聲稱的最高分數。這一結果立即引發了外界對OpenAI透明度和模型測試實踐的質疑。

值得注意的是，OpenAI在12月份公布的基準測試結果中，其實已經包含了一個與Epoch測試結果相符的較低分數。Epoch在報告中指出，測試設置的差異以及評估使用的FrontierMath版本更新可能是導致結果差異的原因。Epoch還提到，OpenAI在內部評估時可能使用了更強大的計算框架和更多的測試時計算資源。

與此同時，ARC Prize基金會也在X平臺上發布消息，證實了Epoch的報告。ARC Prize指出，公開發布的o3模型是一個針對聊天/產品使用進行了調整的不同模型，且所有發布的o3計算層級都比他們測試的版本要小。這一信息進一步加劇了外界對OpenAI基準測試結果的疑慮。

盡管公開版本的o3未能完全達到OpenAI測試時的表現，但OpenAI并未因此停滯不前。該公司后續推出的o3-mini-high和o4-mini模型在FrontierMath上的表現已經優于o3，且計劃在未來幾周內推出更強大的o3版本——o3-pro。

然而，這一系列事件再次提醒人們，在看待人工智能基準測試結果時需要保持謹慎。尤其是當結果來自一家有產品需要銷售的公司時，更需要審慎對待。隨著人工智能行業競爭的加劇，各供應商紛紛急于通過推出新模型來吸引眼球和市場份額，這也導致基準測試“爭議”變得越來越常見。

事實上，這并非OpenAI首次陷入此類爭議。今年1月，Epoch因在OpenAI宣布o3之后才披露其從OpenAI獲得的資金支持而受到批評。許多為FrontierMath做出貢獻的學者直到公開時才知道OpenAI的參與。近期還有其他人工智能公司如xAI和meta也因基準測試問題而受到質疑。

這一系列事件不僅揭示了人工智能基準測試中的復雜性和不確定性，也促使人們更加關注模型的透明度和測試實踐的合理性。對于消費者和行業觀察者而言，保持審慎和理性的態度至關重要。

舉報 0 收藏 0 打賞 0評論 0

更多>同類資訊

鄭緯民院士：國產芯片生態構建，類CUDA系統成關鍵？

05-18

搜狐科技論壇聚焦AI：張朝陽呼吁人類面對科技驚喜需保持清醒

05-18

AI浪潮下，張朝陽：若晚生30年我也會投身AI與人形機器人領域

05-18

羅永浩AI創業新動向：或將攜手百度，共同探索AI領域？

5月18日晚間消息，新浪科技從知情人士處獲悉，羅永浩的AI創業項目或與百度展開合作。近日，羅永浩現身百度辦公區的消息也引發了小范圍討論。據了解，羅永浩自2022年創立細紅線科技有限公司，原計劃聚焦AR領域，…

05-18

羅永浩AI創業新動向：或與百度攜手共進？

05-18

羅永浩現身百度杭州？疑似攜手AI領域展開新合作

多位網友在網上曬圖稱，羅永浩昨日現身百度。圖片顯示，羅永浩身穿黑色衣服，走在工作人員身后，背景有百度的logo，發帖人定位是百度（杭州）分公司。若羅永浩和百度合作，AI可能是合作點之一。近期羅永浩的西紅…

05-18

中小學AI教育新規：禁用AI代寫作業，強化教師角色

新榜訊近日，《中小學人工智能通識教育指南（2025 年版）》與《中小學生成式人工智能使用指南（2025 年版）》已正式發布。據悉，其中明確禁止學生直接將人工智能生成內容復制用作作業或考試答案，且小學階段學生…

05-18

AI無外界干預也能“結社”，自發形成獨特規范和習俗？

05-18

鄭緯民院士：國產大模型訓練亟需“類CUDA”系統，生態構建成關鍵

05-18

搜狐科技論壇聚焦科技前沿，張朝陽：科學世界比AI更廣闊

05-18

張朝陽論AI未來：直覺之辯與晚年商業優化傾向

05-18

張朝陽論AI發展：科技狂歡下，人類清醒何處尋？

05-18

中國GPU市場競爭激烈，英偉達獨占7成，華為昇騰緊追其后！

05-18

星紀魅族郭鵬：AR眼鏡將成AI多模態助手，個人計算新入口？

05-18

2024信息通信科技新突破：6G試驗網、南極寬帶通信等十大進展揭曉

05-18

點擊查看更多 +

全站最新

GMC悍馬EV2026款升級來襲，碳纖維限量版性能飆升160馬力！

專用車智能化新能源化加速，成城市高效運轉新動力

吉利銀河新混動轎車曝光，主打10萬市場，低油耗高續航年內來襲

雷諾4 E-Tech電動小型SUV海外來襲，復古未來風能否引領新潮流？

菱智新能源家族破局而來，9.98萬起助力創業者開啟全場景創富之旅

紅旗H5PHEV：國潮美學與頂尖混動技術的完美碰撞

熱門內容

本欄最新

鄭緯民院士：國產芯片生態構建，類CUDA系統成關鍵？

搜狐科技論壇聚焦AI：張朝陽呼吁人類面對科技驚喜需保持清醒

AI浪潮下，張朝陽：若晚生30年我也會投身AI與人形機器人領域

羅永浩現身百度杭州？疑似攜手AI領域展開新合作

鄭緯民院士：國產大模型訓練亟需“類CUDA”系統，生態構建成關鍵

搜狐科技論壇聚焦科技前沿，張朝陽：科學世界比AI更廣闊

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 商業合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

OpenAI o3模型實測分數引爭議，透明度與測試標準成焦點

日本精品一区二区三区高清久久