滾動資訊

當前位置：首頁 > 資訊 > 信息流 > 正文內容

OpenAI新基準GDPval：AI模型處理真實任務，速度成本優勢顯著但存局限

時間：2025-09-27 11:32:06 來源：互聯網編輯：快訊 IP：北京 發表評論無障礙通道

科技媒體ZDNet近日發布報道稱，OpenAI正式推出全新AI評估基準GDPval，旨在通過真實經濟場景任務衡量前沿模型的實用價值，填補學術測試與商業應用之間的性能斷層。該基準覆蓋美國GDP貢獻最大的九大行業，涉及44個職業的1320項具體任務，所有測試內容均由平均從業14年的領域專家設計，確保任務復雜度與真實工作場景高度契合。

針對當前AI工具市場存在的"理論性能強、實際應用弱"矛盾，OpenAI研發團隊特別設計了多模態評估體系。與傳統僅依賴文本輸入的測試不同，GDPval要求模型完成文件處理、幻燈片制作、文檔格式化等跨模態任務，更全面地檢驗AI在真實辦公環境中的綜合能力。首輪測試中，研究團隊邀請行業專家對GPT-5、GPT-4o、Claude Opus 4.1和Gemini 2.5 Pro等主流模型的輸出進行盲評。

測試結果呈現差異化競爭格局：Anthropic的Claude Opus 4.1憑借出色的文檔美學設計（包括排版布局、視覺呈現等維度）獲得綜合評分第一；OpenAI自家的GPT-5則在專業領域知識準確性方面表現最優。這種分工式優勢反映出現階段AI模型在不同應用場景中的專業化發展趨勢。

成本效率對比數據引發行業關注。研究顯示，前沿AI模型完成GDPval指定任務的速度達到人類專家的100倍，而單次任務成本僅為人工的百分之一。不過OpenAI特別說明，該數據僅包含模型推理階段的直接成本，未計入實際應用中必需的人工審核、多次迭代和系統集成等環節產生的隱性成本。

作為初期版本，GDPval仍存在明顯局限。當前評估主要針對獨立任務的一次性完成情況，難以衡量模型處理多輪修改需求、應對模糊指令或執行動態交互任務的能力。例如在需要依據客戶反饋持續優化方案、處理異常數據等復雜場景中，現有評估體系尚無法有效量化模型表現。

針對這些不足，OpenAI研發團隊表示后續迭代將擴大行業覆蓋范圍，增加需要人類判斷的復雜任務類型，并計劃開放部分測試數據集供學術界研究使用。這種動態優化機制反映出AI評估體系正朝著更貼近商業實戰的方向演進。

更多>同類資訊

聚焦關鍵領域，“光谷造”走進上海光機所打通科研儀器供應鏈環節

近日，由東湖高新區企業服務和重點項目推進局主辦，湖北產融資本市場服務有限公司與上海意桐光電科技有限公司聯合承辦的"光谷造"系列活動——上海光機所科研儀器設備供需對接專場在上海光機所舉辦。本次活動以"小規模、…

09-27

喜鵲：智慧筑巢展現非凡適應力，圓頂巢穴暗藏抵御雨雪的精妙設計

與大多數鳥類的開放式巢不同，喜鵲傾向于建造圓頂形巢，通常配有側門，巢體由泥土和苔蘚構成，十分堅固且設計獨特。喜鵲的適應性非常強，可以選擇多種不同的筑巢地點，但它們偏愛棲息在高大且茂密的樹木或灌木叢中，通常選擇…

09-27

中移金科2025北京PT展秀元宇宙虹膜支付：四大特性開啟支付安全便捷新篇

中移金科推出的“元宇宙虹膜支付解決方案”深度融合空間互動、AR引擎、場景商業引擎等核心技術，以VR頭顯為終端載體，打造了一種虛實結合的沉浸式購物方式。隨著元宇宙與實體經濟的融合不斷加深，中移金科的元宇宙虹…

09-27

跨越山海追星夢：“益”起看星空公益研學帶偏遠地區師生探秘天文世界

09-27

2.9萬年后白矮星或近太陽系？人類探索“引力彈弓”應對宇宙挑戰

09-27

風云三號H星成功發射入軌助力全球生態監測再添“中國力量”

09-27

柏楚電子：激光切割與智能焊接雙輪驅動，于傳統制造中乘勢騰飛

09-27

激光雷達訂單銷售額雙增，機器人產業崛起如何帶動其走向新高峰？

09-27

谷歌Gemini Robotics-ER 1.5登場：為機器人注入具身推理“智慧芯”

09-27

OpenAI招募工程師構建廣告平臺，計劃2026年借ChatGPT廣告實現免費用戶變現

09-27

2025年9月27日我國成功發射風云三號08星助力氣象監測與防災減災

09-27

固態電池設備產業鏈崛起：七大核心企業引領擴產與技術創新浪潮

2025年上半年，固態濕法涂布、輥壓、轉印等設備批量交付至國內多條中試線，適應不同類型電極材料和電解質，支持規模化工藝創新。公司已與多家新能源科技企業開展戰略級合作，技術路線覆蓋“氧化物+鋰金屬”“硫化物+硅…

09-27

錢塘江畔電商潮涌：500萬新人入局，算法升級下的直播新生態

09-27

永輝前副總裁彭華生再出發，小優生鮮北京首店11月啟幕，帶來新期待

09-27

川大學子與頂尖學者共探黑洞奧秘學術報告激發天文探索熱情

09-27

點擊查看更多 +

全站最新

雷軍演講透露陳年十年還清十億債，直播中聞“五十正是闖齡”感慨落淚

大六座安全豪華SUV騰勢N8L預售開啟，31.98萬起享家庭舒享與科技守護

全新問界M7工廠交付開啟，用戶親驗品質，智造升級共赴幸福新程

沃爾沃XC70上市：安全為基智能續航雙突破，能否攪動豪華混動風云？

蘿卜快跑攜001號牌照亮相迪拜，RT6試乘車隊展現中國自動駕駛硬實力

比亞迪方程豹鈦7驚艷登場高級新能源SUV盡顯霸氣風范

熱門內容

本欄最新

雷軍年度演講談玄戒O1項目：小米造芯決心堅定，至少十年投入500億

雷軍第99次健身打卡收官在即，年度演講與小米17系列發布同日將啟

天回航天“巧龍一號”發動機完成超低工況熱試車，展現深度推力調節潛力

2025秋季搜狐視頻播主大會三亞啟幕，多元互動共探關注流社交新生態

NVIDIA50億美元投資Intel，臺積電風險可控，先進制程優勢或延續至2030年

復旦團隊繪制代謝組圖譜：解鎖疾病早期預警密碼，助力精準醫療

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 商業合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

OpenAI新基準GDPval：AI模型處理真實任務，速度成本優勢顯著但存局限

日本精品一区二区三区高清久久