OpenAI正式推出專為長時間編碼任務設計的全新Agentic模型——GPT?5.1-Codex-Max。這款模型通過創新的“壓縮技術”突破了傳統上下文窗口限制,能夠在單次任務中穩定處理百萬量級的Token,同時實現更高效的資源利用率。相較于前代產品,新模型在性能與速度方面均取得顯著提升,尤其適合需要持續運行的復雜開發場景。
在訓練階段,研發團隊引入了真實軟件工程任務數據,涵蓋代碼評審、前端開發、問題解答及PR創建等核心環節。測試結果顯示,該模型在多項權威編程評測中表現優異:SWE-Bench Verified(500樣本)得分達77.9%,SWE-Lancer IC SWE測評取得79.9%,TerminalBench 2.0測評成績為58.1%,三項指標均超越前代模型。針對Windows開發環境,團隊進行了專項優化,使模型在跨平臺支持方面更具競爭力。
針對長時間運行任務,GPT?5.1-Codex-Max展現出獨特優勢。傳統模型常因上下文窗口限制導致任務中斷,而新模型可在接近窗口容量時自動壓縮會話內容,實現自主運行數小時甚至超過24小時。內部測試表明,在復雜代碼重構和持續agent循環場景中,該模型能保持穩定輸出,有效解決開發過程中的上下文丟失問題。
推理效率的提升進一步增強了模型實用性。在SWE-Bench Verified測試中,新模型完成相同任務所需的思考Token減少30%,通過“Extra High(xhigh)”模式可針對復雜邏輯投入更深度分析。這種優化不僅降低了計算成本,還顯著提升了代碼生成的準確性,尤其適合處理需要多步驟推理的編程任務。
目前,該模型已集成至Codex CLI、IDE擴展、云端服務及代碼評審系統,面向ChatGPT高級訂閱用戶開放使用,涵蓋Plus、Pro、Business、Edu及Enterprise全層級。OpenAI計劃近期通過API向開發者提供服務,并逐步將其設為Codex平臺的默認模型。此次升級標志著Agentic編碼工具向工業化應用邁出重要一步,為大規模軟件開發提供更可靠的自動化支持。










