日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

GPT-5.2性能爆表,但紅色警報沒有解除

   時間:2025-12-12 17:42:59 來源:直面AI編輯:快訊 IP:北京 發表評論無障礙通道
 

就在剛剛,ChatGPT-5.2發布了。

這是OpenAI成立以來,首次發布紅色警報(Code Red)后的第一款產品。

雖然在時間上,GPT-5.2只跟5.1相隔了一個月。但是從公布的性能數據來看,GPT-5.2較上一代提升巨大,而且遠超谷歌和Anthropic的同期產品。

然而OpenAI的紅色警報并未因此解除,這家公司仍處于危機之中。

究其原因,現在的市場已經逐漸開始對OpenAI祛魅,而是更冷靜地審視每一分算力背后的投入產出比。在這種前所未有的環境之下,OpenAI不僅需要證明自己是最強的,還需要證明自己不可被替代。

01

首先要說的,就是GPT-5.2的數學能力。

長期以來,業界普遍認為大語言模型雖然能寫代碼、能聊天,但在嚴格的數學推理上總是差強人意。這次GPT-5.2 Thinking在AIME 2025數學競賽中拿到了100%的滿分。

AIME是美國數學邀請賽,題目難度遠超普通高中數學,需要扎實的數學功底和靈活的解題思路。GPT-5.2能在這樣的測試中全部答對,說明它在數學推理上已經達到了相當高的水平。

在更高難度的FrontierMath測試中,GPT-5.2 Thinking解決了40.3%的專家級數學難題。這個測試專門針對前沿數學研究設計,許多題目連專業數學家都需要花費大量時間思考。能解決其中40%的問題,已經展現出在輔助科學研究方面的潛力。

除了推理和數學,GPT-5.2在專業工作領域也表現突出。

在OpenAI新推出的GDPval基準測試中,GPT-5.2 Thinking在涵蓋44種職業的知識工作任務上,有70.9%的情況下擊敗或打平了頂尖行業專家。

這些任務包括制作演示文稿、構建復雜的財務模型、撰寫專業文檔等。OpenAI表示,它完成這些任務的速度是人類專家的11倍以上,成本卻不到1%。

在軟件工程方面,GPT-5.2 Thinking在SWE-Bench Pro上達到55.6%的準確率,在SWE-bench Verified上達到80%。這些測試評估的是模型在真實代碼庫中修復bug、實現新功能的能力。

早期測試者反饋,它在前端開發和復雜UI實現上尤其出色,甚至能夠根據一條提示就生成包含3D效果和物理模擬的完整應用。

GPT-5.2在長文檔理解上也有明顯進步。在OpenAI的MRCRv2測試中,它成為首個在256k token長度下,針對4-needle變體任務達到近乎100%準確率的模型。

這意味著用戶可以上傳數百頁的報告、合同或研究論文,模型仍能準確理解分散在不同位置的相關信息,并進行綜合分析。

在視覺理解方面,GPT-5.2的錯誤率在圖表推理和軟件界面理解任務上幾乎減半。它對圖像中物體的空間位置有了更準確的把握。

OpenAI展示了一個例子:即使輸入一張模糊的主板照片,GPT-5.2也能準確識別出各個組件的位置并標注邊界框,而前代模型只能識別出少數部分且位置偏差較大。

此次發布包含三個版本。GPT-5.2 Instant定位為日常工作的快速助手,適合信息查詢、技術寫作和翻譯等任務。GPT-5.2 Thinking專注于深度推理,在編程、數據分析和復雜文檔處理上表現最佳,是專業工作的首選。GPT-5.2 Pro則是最智能的版本,適合那些"值得等待高質量答案"的高難度問題。

同時這次發布最引人注目的,不僅是模型本身的能力提升,更是一個令人驚訝的效率數據:在ARC-AGI-1測試中,GPT-5.2 Pro實現了約390倍的效率改進。

一年前,OpenAI曾驗證過一個未發布的o3預覽版本,在ARC-AGI-1測試中達到88%的準確率,但每個任務的成本約為4500美元。如今,GPT-5.2 Pro不僅將準確率提升至90.5%,還將單任務成本降至11.64美元。這種量級的效率提升,意味著原本只能在實驗室中演示的能力,現在有可能真正走向實際應用。

ARC-AGI測試被設計用來衡量抽象推理能力,它要求模型在面對從未見過的模式時,仍能找出規律并給出答案。這種能力接近人類所謂的“舉一反三”。

GPT-5.2 Pro在ARC-AGI-1驗證集上的表現,使其成為首個突破90%門檻的模型。在難度更高的ARC-AGI-2上,GPT-5.2 Thinking也達到了52.9%的準確率,創下了鏈式思維模型的新紀錄。

02

GPT-5.2是奧特曼啟動Code Red后的一次強有力證明,但競爭的結果不會由單一基準測試決定。真正的較量在于誰能更好地理解用戶需求,誰能在保持技術領先的同時控制成本,誰能在不同應用場景中提供更可靠的服務。

一個來自GitHub的開源基準測試給出了答案。在lechmazur維護的NYT Connections測試中,GPT-5.2的表現并不如預期。

NYT Connections是《紐約時報》推出的一個文字游戲,要求玩家從16個詞語中找出四組相關的詞匯。這個測試被設計成了一個LLM基準,通過加入額外的干擾詞來增加難度,目前包含759個謎題。這種測試考察的是模型對語言的細微理解、聯想能力和分類推理。

在這個排行榜上,Gemini 3 Pro Preview以96.8%的準確率位居第一。緊隨其后的是xAI的Grok 4.1 Fast Reasoning,準確率為93.5%。OpenAI的模型中,表現最好的是GPT-5 Pro,準確率為83.9%,排在第八位。GPT-5.2在高推理模式下的準確率為77.9%,排名第11位。

這個結果多少有些出人意料。GPT-5.2在數學競賽中能拿滿分,在專業工作任務中能超越人類專家,但在這個看似簡單的文字游戲上,卻落后于競爭對手近20個百分點。

深入分析會發現,這并不是簡單的性能問題。NYT Connections測試的是模型對語言文化背景的理解,對詞語之間隱含關聯的把握,以及在多個可能性中做出合理選擇的能力。

比如BANK、INTEREST、RATE、LOAN可能組成金融類別,也可能BANK與SHORE、BEACH、COAST組成河岸類別。

模型需要同時考慮多個維度的關聯,并找到最合理的分組方式。

Gemini 3 Pro在這個測試上的領先,說明谷歌在語言理解的某些維度上確實有獨到之處。Grok系列模型的表現也值得注意,xAI雖然起步較晚,但在特定任務上已經展現出競爭力。

有趣的是,測試數據還顯示,在最新的100個謎題中,各模型的排名基本保持一致,這說明訓練數據污染的可能性不大。模型之間的差距是實質性的,而非來自對題目的記憶。

這個測試的存在,給AI社區提供了一個更全面的視角。模型能力的評估不應該只看幾個主流基準測試,也需要關注那些看似邊緣但實則反映深層能力的測試。

NYT Connections考察的聯想和分類能力,在實際應用中同樣重要,比如在信息檢索、內容推薦、知識圖譜構建等場景中。

從這個角度看,奧特曼的Code Red警報確實還不能解除。雖然GPT-5.2在很多領域表現出色,但它并沒有在所有維度上都取得領先。競爭對手在某些方向上依然保持著優勢,甚至在擴大差距。

03

技術競爭最終要落到商業層面。OpenAI在市場上的處境,比技術指標的對比要復雜得多。

從定價策略來看,GPT-5.2在API層面的價格定在每百萬輸入token 1.75美元,每百萬輸出token 14美元,比前代GPT-5.1分別貴了40%。

GPT-5.2 Pro價格也提高了,每百萬輸入token 21美元,每百萬輸出token 168美元。

這個漲價幅度不小,OpenAI的解釋是新模型能力更強,性價比實際上更高。但對于大量調用API的開發者來說,成本的增加是實實在在的。

相較之下,Gemini 3 Pro的核心型號為gemini-3-pro-preview,其token定價按上下文窗口長度區分,提示詞≤20 萬 token 時,輸入每百萬token 2美元、輸出每百萬token 12美元,提示詞>20萬token時,輸入和輸出價格分別翻倍至每百萬token 4美元和18美元。

Claude 方面,最新的 Opus 4.5定價大幅下調,輸入每百萬token 5美元、輸出每百萬token 25美元,相比前代降幅約2/3,上下文窗口為200K token,且無長上下文加價情況。

當競爭對手們如Gemini和Claude都在通過大幅降價,試圖讓AI變成像水電一樣廉價的基礎設施時,OpenAI 卻反其道而行之,不僅沒有參與價格戰,反而坦然地掛出了高昂的價格標簽。這只能說明一件事:奧特曼正在試圖把 GPT 變成一件“奢侈品”。

在商業邏輯中,奢侈品的定義往往不在于“有用”,而在于“稀缺”和“極致”。OpenAI 正在賭,賭這個世界上存在一部分最高端的智力需求,它們對價格不敏感,但對質量有著近乎偏執的要求。

對于這部分用戶,只要能提供那個唯一的、最正確的答案,168美元的價格不僅不貴,反而是一種身份和能力的篩選。

這或許才是“紅色警報”在商業層面的真正回響。它不再是擔心落后,而是擔心平庸。

OpenAI正在進行一場危險的博弈:它試圖通過高價策略,將自己與“普通 AI”徹底區隔開來,建立起類似愛馬仕或蘋果那樣的品牌護城河。

但這也意味著,它從此失去了“差不多就行”的容錯空間。可問題就在于一旦這件昂貴的“奢侈品”在實際體驗中無法提供碾壓式的優越感,那么用戶轉身離開的速度。

況且,能挽救OpenAI的遠不止一個高性能的模型那么簡單,奧特曼現在需要的,是一個足夠動人的新故事。

 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  爭議稿件處理  |  English Version
 
日本精品一区二区三区高清 久久
亚洲国产三级在线| 中文在线一区二区| 在线视频一区二区三| jizzjizzjizz欧美| 久久99精品久久只有精品| 免费观看一级欧美片| 美女免费视频一区二区| 日本人妖一区二区| 免费人成网站在线观看欧美高清| 国产一区二区三区在线观看免费视频 | 欧美精品在线观看播放| 欧美日韩中文字幕一区二区| 欧美一区午夜精品| 久久综合九色综合欧美98| 中文字幕欧美国产| 日本在线不卡一区| 国产精品中文字幕一区二区三区| 国产成人免费视频| 欧洲精品一区二区| 国产精品丝袜久久久久久app| 一区二区三区四区在线播放| 婷婷亚洲久悠悠色悠在线播放| 精品在线一区二区| 欧美三级三级三级爽爽爽| 欧洲av在线精品| 国产精品视频免费看| 久久99精品国产| 欧美性受xxxx| 亚洲美女淫视频| 99久久伊人网影院| 久久精品在线观看| 日欧美一区二区| 色av综合在线| 亚洲色图一区二区三区| 国产成人免费在线视频| 欧美日韩国产片| 亚洲.国产.中文慕字在线| 色综合久久久久网| 亚洲精品高清在线观看| 97精品超碰一区二区三区| 久久久精品国产免大香伊| 久久69国产一区二区蜜臀| 在线不卡中文字幕| 亚洲超碰精品一区二区| 欧美午夜一区二区三区免费大片| 亚洲一区在线观看视频| 欧美日韩在线精品一区二区三区激情 | 久久网站最新地址| 韩日欧美一区二区三区| 久久一留热品黄| 波多野结衣一区二区三区 | 成a人片亚洲日本久久| 成人欧美一区二区三区白人| 91免费版pro下载短视频| 国产日本亚洲高清| 色婷婷综合久久久久中文| 麻豆精品国产传媒mv男同| 26uuu精品一区二区| 91在线免费看| 免费高清在线一区| 亚洲人成亚洲人成在线观看图片| 欧美日韩一区成人| 精品一区精品二区高清| 亚洲免费观看在线观看| 欧美一区二区三区啪啪| 国产高清成人在线| 国产中文字幕一区| 男女男精品视频| 亚洲综合男人的天堂| 欧美—级在线免费片| 欧美大片一区二区三区| 欧美色成人综合| 91视频91自| 成人午夜免费电影| 国产激情视频一区二区在线观看| 亚洲永久免费av| www一区二区| 精品噜噜噜噜久久久久久久久试看 | 欧美激情一区二区在线| 欧美一区二区三区电影| 色欧美日韩亚洲| 91麻豆swag| 91黄视频在线观看| 91在线免费播放| 在线免费视频一区二区| 欧美在线观看禁18| 欧美专区亚洲专区| 欧美精品电影在线播放| 欧美一区二区三区的| 欧美在线综合视频| 日韩欧美成人午夜| 91精品婷婷国产综合久久竹菊| 色综合天天在线| 日韩免费观看高清完整版在线观看| 制服.丝袜.亚洲.中文.综合| 欧美高清你懂得| 久久久噜噜噜久噜久久综合| 日本一区二区三区国色天香 | 91麻豆高清视频| 91.xcao| 久久综合久久综合亚洲| 国产午夜精品久久久久久免费视 | 日本电影亚洲天堂一区| 91精品免费在线| 欧美韩国一区二区| 天天影视色香欲综合网老头| 国产精品综合二区| 欧美色电影在线| 国产精品国产精品国产专区不蜜 | 亚洲五码中文字幕| 国产精品亚洲专一区二区三区 | 亚洲精品视频免费观看| 日产国产高清一区二区三区| 成人一区在线看| 91精品国产高清一区二区三区 | 成人手机电影网| 精品日韩在线一区| 喷水一区二区三区| 欧美日韩成人一区二区| 亚洲免费高清视频在线| 国产麻豆成人传媒免费观看| 欧美午夜片在线看| 一个色综合av| 粗大黑人巨茎大战欧美成人| 久久青草国产手机看片福利盒子| 石原莉奈一区二区三区在线观看| a4yy欧美一区二区三区| 国产精品国产三级国产aⅴ无密码| 国产高清无密码一区二区三区| 欧美图片一区二区三区| 亚洲一区av在线| 欧美日韩五月天| 亚洲成人手机在线| 欧美一级电影网站| 国产精品一级二级三级| 欧美mv日韩mv国产| 成人国产精品免费网站| 亚洲欧美精品午睡沙发| 91免费视频大全| 日本欧美在线看| 日本一区二区三区四区| 91视频免费播放| 青娱乐精品视频| 国产精品久久毛片av大全日韩| 日本道精品一区二区三区| 亚洲电影在线免费观看| 日韩片之四级片| 91蝌蚪国产九色| 亚洲成在人线免费| 中文字幕在线视频一区| 欧美精品第一页| 99vv1com这只有精品| 另类人妖一区二区av| 亚洲综合激情另类小说区| 久久久午夜精品理论片中文字幕| av不卡免费在线观看| 捆绑调教美女网站视频一区| 亚洲三级在线观看| 日韩精品一区二区三区视频播放| 99re这里只有精品6| 国产成人av福利| 麻豆成人久久精品二区三区小说| 亚洲一区欧美一区| 国产精品私房写真福利视频| 久久一日本道色综合| 色国产精品一区在线观看| 成人激情免费视频| 国产盗摄一区二区三区| 日韩av一二三| 日本欧美一区二区在线观看| 日韩av一级片| 五月综合激情婷婷六月色窝| 亚洲免费观看高清| 亚洲mv在线观看| 久久国产精品72免费观看| 肉色丝袜一区二区| 久久福利视频一区二区| 国产真实乱子伦精品视频| 国产高清亚洲一区| 国产91丝袜在线播放0| av在线一区二区| 在线视频中文字幕一区二区| 欧美精品丝袜久久久中文字幕| 久久一留热品黄| 亚洲成人av免费| 激情文学综合插| 成人激情小说乱人伦| 欧美午夜一区二区三区| 国产日韩欧美一区二区三区乱码| 亚洲欧洲日韩av| 丝袜国产日韩另类美女| 激情五月激情综合网| 在线国产亚洲欧美| 日韩你懂的在线播放| 亚洲精品乱码久久久久久日本蜜臀| 五月天欧美精品| 色屁屁一区二区| 久久久亚洲精华液精华液精华液| 洋洋成人永久网站入口| 成人高清在线视频|