在 OpenAI 慶祝十周年之際,最新發布的 GPT-5.2 系列模型引發了廣泛討論。官方數據顯示,GPT-5.2 在多個專業基準測試中表現出色,甚至在某些領域超過了人類專家,堪稱迄今為止在專業知識工作中表現最佳的 AI 模型。
根據 OpenAI 的介紹,GPT-5.2 在多個領域取得了技術突破。例如,在 GDPval 測試中,該模型在 44 個職業的任務中以 70.9% 的成績超越了頂尖專家。同時,SWE-bench Pro 編程測試中,GPT-5.2 達到了 55.6% 的 SOTA(State of the Art)成績,幻覺率較前一版本 GPT-5.1 降低了 38%。這些成果令人振奮,似乎標志著 AI 技術的又一飛躍。
然而,并非所有反饋都是正面的。在 SimpleBench 常識推理測試中,GPT-5.2 的得分卻低于競爭對手 Anthropic 發布的 Claude Sonnet 3.7,尤其是在一些看似簡單的問題上表現不佳。例如,模型在回答 “garlic 有幾個 r” 這樣的問題時,常常出錯,用戶在進行三次測試時,僅有一次答對。相較之下,谷歌的 Gemini 3.0 等競品則能夠穩定通過這些邏輯推理挑戰。這讓一些用戶感到失望,甚至前 AWS 總經理 Bindu Reddy 直言:“不值得從 GPT-5.1 升級。”
盡管技術的進步不可否認,但 GPT-5.2 所面臨的挑戰也讓人深思。AI 模型在處理簡單常識問題時的不足,引發了關于 AI 智能水平的爭論。這是否意味著技術在某些方面的退步,或者只是發展過程中的正常現象?未來,OpenAI 需要進一步優化和改進,以提升模型在邏輯推理和常識理解方面的表現。
GPT-5.2 的發布標志著 OpenAI 在專業領域的重大進展,但也暴露出模型在常識推理等基礎任務中的不足。這場關于 AI 智能的爭論,或許將成為未來科技發展的重要課題。






