人工智能領域近期迎來一項突破性進展:一家名為Poetiq的初創公司通過其開發的元系統(meta-system),在不改動基礎大模型的前提下,顯著提升了AI在復雜推理任務中的表現。實驗數據顯示,該系統使GPT-5.2 X-High在權威測試集ARC-AGI-2上的成績達到75%,較此前最優模型提升約15%,同時將單題處理成本控制在8美元以內。
這項成果的核心在于Poetiq構建的迭代式推理框架。與傳統AI系統直接生成答案不同,該框架通過多輪交互實現自我優化:系統首先生成初步解決方案,隨后根據反饋持續改進,直至形成最終答案。這種機制特別引入了自我審計功能,能夠自動判斷何時已獲得足夠信息,從而及時終止計算過程。實驗表明,這種設計不僅提升了準確性,更有效降低了資源消耗——X-High版本之所以成本更低,正是因其能更快收斂到正確解。
測試采用的PUBLIC-eval數據集包含基礎推理、自然語言處理及數學推理等標準任務,而更嚴苛的ARC-AGI-2測試則聚焦抽象推理、常識應用和創新能力等高階認知維度。值得關注的是,Poetiq未對任何模型進行針對性訓練或優化,其系統完全通過改進推理策略實現性能躍升。這種"模型無關"的特性,使得元系統能夠無縫適配不同架構的AI模型,包括Gemini 3、GPT-5.1等前沿產品。
該團隊特別強調,所有適配工作均在新模型發布前完成,且系統從未接觸過測試任務集。這種"零接觸"下的跨版本性能提升,證明其捕捉到了推理過程的本質規律,而非依賴特定模型的特性。ARC Prize總裁Greg Kamradt評價稱,若成果經得起大規模驗證,這套系統將徹底改變AI應用模式——通過動態切換模型應對不同任務,無需為每個場景重新訓練系統。
這項突破由六人團隊完成,其中多位核心成員來自Google DeepMind。聯合創始人Ian Fischer和Shumeet Baluja均擁有資深研究背景,他們開發的元系統展現出驚人的泛化能力:在保持架構不變的情況下,系統能自動適配不同模型族的認知風格,實現跨版本性能提升。這種設計哲學獲得業界高度認可,有專家指出,在模型外部構建智能架構的策略,使得新模型適配時間從數周縮短至數小時,為AI技術落地開辟了新路徑。
目前團隊正在收集更詳細的性能數據,初步統計顯示簡單任務可在8-10分鐘內完成,而最復雜任務的計算時間控制在12小時內。對于成本優化機制,Poetiq確認X-High版本確實通過更高效的推理路徑實現了性能突破。隨著系統持續迭代,這種"模型之上構建智能"的范式,或將重新定義人工智能的能力邊界。









