科技媒體ZDNet近日發布報道稱,OpenAI正式推出全新AI評估基準GDPval,旨在通過真實經濟場景任務衡量前沿模型的實用價值,填補學術測試與商業應用之間的性能斷層。該基準覆蓋美國GDP貢獻最大的九大行業,涉及44個職業的1320項具體任務,所有測試內容均由平均從業14年的領域專家設計,確保任務復雜度與真實工作場景高度契合。
針對當前AI工具市場存在的"理論性能強、實際應用弱"矛盾,OpenAI研發團隊特別設計了多模態評估體系。與傳統僅依賴文本輸入的測試不同,GDPval要求模型完成文件處理、幻燈片制作、文檔格式化等跨模態任務,更全面地檢驗AI在真實辦公環境中的綜合能力。首輪測試中,研究團隊邀請行業專家對GPT-5、GPT-4o、Claude Opus 4.1和Gemini 2.5 Pro等主流模型的輸出進行盲評。
測試結果呈現差異化競爭格局:Anthropic的Claude Opus 4.1憑借出色的文檔美學設計(包括排版布局、視覺呈現等維度)獲得綜合評分第一;OpenAI自家的GPT-5則在專業領域知識準確性方面表現最優。這種分工式優勢反映出現階段AI模型在不同應用場景中的專業化發展趨勢。
成本效率對比數據引發行業關注。研究顯示,前沿AI模型完成GDPval指定任務的速度達到人類專家的100倍,而單次任務成本僅為人工的百分之一。不過OpenAI特別說明,該數據僅包含模型推理階段的直接成本,未計入實際應用中必需的人工審核、多次迭代和系統集成等環節產生的隱性成本。
作為初期版本,GDPval仍存在明顯局限。當前評估主要針對獨立任務的一次性完成情況,難以衡量模型處理多輪修改需求、應對模糊指令或執行動態交互任務的能力。例如在需要依據客戶反饋持續優化方案、處理異常數據等復雜場景中,現有評估體系尚無法有效量化模型表現。
針對這些不足,OpenAI研發團隊表示后續迭代將擴大行業覆蓋范圍,增加需要人類判斷的復雜任務類型,并計劃開放部分測試數據集供學術界研究使用。這種動態優化機制反映出AI評估體系正朝著更貼近商業實戰的方向演進。