日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

6位前DeepMind老將打造“AI指揮官”,一半成本刷新SOTA

   時間:2025-12-14 18:45:57 來源:新智元編輯:快訊 IP:北京 發表評論無障礙通道
 

編輯:元宇

6位前DeepMind成員以元系統重塑大模型調用方式,該系統推出的Gemini 3 Pro優化技術在ARC-AGI-2上以54%的成績奪得榜首,而成本僅為此前最優方法的一半。

最近,6名前Google DeepMind研究員、工程師又搞大事了。

他們的新初創公司Poetiq沒去研發更大、更聰明的模型,而是搭建了一個元系統,該系統可以讓前沿大模型自動生成解決特定任務的策略和模型組合。

這樣不僅解決了前沿模型難以單獨解決復雜真實世界問題的痛點,還將整體推理成本降低了一半。

12月8日,ARC Prize官宣驗證了該團隊的成果。

由Poetiq推出的Gemini 3 Pro優化技術,在ARC-AGI-2 leaderboard上創下新SOTA,得分高達54%,每任務計算成本僅31美元。

這一突破遠超此前模型的最優表現,在leaderboard上力壓群雄。

Poetiq團隊揭秘

Poetiq初創團隊均來自Google DeepMind

Poetiq是一個精干且高度技術型的團隊,由6名來自Google DeepMind的研究員與工程師組成。

該創始團隊成員一共擁有53年的專業經驗,他們在Poetiq的目標是「以更優的推理,鋪就通過安全超級智能的最快路徑」。

12月5日,這家成立不到一年的公司自豪地宣布:

「Poetiq系統已經大幅超越現有方法,并樹立了新的行業最佳表現。」

如上圖所示,Poetiq系統在ARC-AGI-2半私有評估集上創下新紀錄。

11月20日,Poetiq已經公布了自己在ARC-AGI-2上的強勁表現,此次ARC Prize對Poetiq公布的成績進行了官方驗證。

Poetiq開發的一套純Gemini配置參與了ARC Prize的官方評估。

該系統以每題30.57美元的成本取得了54%的成績,打破了此前Gemini 3 Deep Think創下的每題成本77.16美元、45%的最佳成績。

Poetiq團隊表示,在ARC-AGI-2公共數據集上,Poetiq系統建立了全新的帕累托前沿,不僅超越以往成果,還進一步推動了成本效益推理的邊界。

Poetiq團隊將這一成績,歸結為它的元系統。

元系統

在任意模型上構建智能

Poetiq的方法是在任意模型之上構建智能。

其元系統旨在利用任何現成的前沿模型,自動生成能解決特定任務的完整系統,無需構建甚至不需要微調自己的大前沿模型。

這也是為什么Poetiq能在Gemini 3與GPT-5.1發布后數小時內,就將它們快速接入并取得SOTA表現的原因。

如上圖所示,Poetiq元系統在ARC-AGI-1和ARC-AGI-2上不僅全面刷新了以往成績,也再次推進了低成本推理的邊界。

相比之下,Gemini 3 Deep Think(預覽版)成本明顯更高,準確率卻更低。Poetiq(Gemini-3-a、b、c)展示了Poetiq如何利用多個大語言模型,在任意成本目標下實現最大化性能。

Poetiq系統可以通過多次調用Gemini-3來程序化地處理ARC-AGI-1和ARC-AGI-2的問題,從而在廣泛的計算區間內實現帕累托最優。

Poetiq(Grok-4-Fast)主打極致成本效率,構建于Grok-4-Fast Reasoning模型之上。不僅比原模型報告的結果更便宜、準確率更高,還能達到與價格高兩個數量級的模型相當的準確度。

Poetiq(GPT-OSS-b)基于開源權重模型GPT-OSS-120B,在單題不到1美分的成本下仍取得了非常亮眼的準確率。

Poetiq(GPT-OSS-a)基于GPT-OSS-120B的低思考版本,用來展示極限成本條件下的系統表現。

以上這些方案雖然各自都能獨立運行,但它們共同的底層是Poetiq靈活的元系統。

這個元系統的核心優勢之一即能自動選擇模型組合與策略,甚至會自行判斷何時要寫代碼、又該由哪個模型負責寫代碼。

Poetiq的遞歸、自我改進系統完全不依賴特定大模型,在接入最新模型時也能充分展現其能力。

使用Poetiq元系統強化主流模型

為了進一步展示Poetiq元系統的能力,研究人員將其應用到多個來自Google DeepMind、OpenAI、Anthropic和xAI的最新模型上。

每一次,Poetiq都實現了「更高準確率+更低成本」的組合。

上圖中展示了12個模型(包括ChatGPT、Claude Haiku、Gemini、Grok 4、GPT-OSS)在ARC-AGI-1上經過Poetiq處理后的表現。

Poetiq是如何做到的?秘訣其實只有一句話:

從上到下,全靠大語言模型。

Poetiq使用大模型來構建系統、改進系統、也讓系統本身運行起來。

正是這種靈活、強大且遞歸的系統架構,讓Poetiq能快速取得如此一系列SOTA成果。

Poetiq選擇開源的具體配置,主要為了展示2個重要理念:

提示詞只是接口層,并非智能本體

系統在一個循環式的解題流程中運行:它不會只問一次,而是先讓大模型生成一個可能的答案(有時包括代碼),根據反饋進行分析,然后再繼續利用模型改進答案。

這種多步驟、自我完善的方式,讓系統能逐步構建并打磨最終解答。

自我檢查

系統會自主檢查自己的進展,決定什么時候信息足夠、結果可靠,從而自動結束流程。

這種自我監控機制能有效避免浪費算力,讓整體成本更低。

為什么選擇ARC-AGI?

Poetiq認為ARC-AGI是驗證自身核心理念的理想測試場。

大模型蘊含了大量人類知識,但在復雜推理任務上經常出現不穩定的情況。

一個原因是模型表現高度依賴提示詞,而其隨機性會讓知識提取變得不夠可靠,從而使推理步驟難以預測。

真正的挑戰在于:如何發現一種推理策略,既能找出需要的信息,又能在找到信息時順利將其組合起來,并智能判斷下一步該做什么。

Poetiq的核心目標,就是為了讓這一過程能夠自動化并不斷優化。

Poetiq所構建的系統并不預設推理策略,而是讓模型自主發現最適配的推理方式,并能在現實限制(預算、Token或算力)內工作。

這將釋放生成式AI在復雜推理方面的真正潛力。

Poetiq的系統能在短時間內適配任務特性與模型特性,而ARC-AGI測試的是模型抽象推理、歸納、邏輯、生成策略能力,這和Poetiq系統的優勢也是相互匹配的。

為了使Poetiq的元系統能夠隨著每次解決新任務而持續進化,任務的多樣性也非常關鍵。

為此,Poetiq的團隊正在讓系統攻克更多基準任務,涵蓋多種推理與檢索需求。

Poetiq系統的優點是擅長與其他系統協作。

該系統可以用來優化現有大型系統內部的AI組件。

如果能夠在不修改模型本身的前提下,利用前沿模型中豐富的世界知識來解決長時序任務,如果能讓底層知識提取機制更適配大模型,也許就不需要進行模型調優,這些正是Poetiq下一步努力的方向之一。

 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  爭議稿件處理  |  English Version
 
日本精品一区二区三区高清 久久
国产成人av一区二区三区在线| 国产精品123区| 亚洲第一主播视频| 亚洲一区中文在线| 亚洲成人福利片| 香蕉久久一区二区不卡无毒影院 | 波多野结衣亚洲一区| 成人精品视频一区二区三区| 高清在线成人网| 99久久精品久久久久久清纯| 色综合久久久久综合体| 在线看日本不卡| 91精品久久久久久久99蜜桃| 欧美成人艳星乳罩| 精品成人一区二区三区| 国产三级精品在线| 亚洲精品美腿丝袜| 麻豆传媒一区二区三区| 国产乱码精品一区二区三区五月婷 | 成人中文字幕在线| 91啪九色porn原创视频在线观看| 欧美伊人久久大香线蕉综合69 | 欧美日韩情趣电影| 色婷婷综合激情| 欧美日韩成人综合在线一区二区| 欧美一级高清片在线观看| 国产日韩高清在线| 亚洲一区电影777| 久草这里只有精品视频| 成人av在线一区二区| 911精品产国品一二三产区| 久久综合久色欧美综合狠狠| 国产精品网站在线播放| 婷婷开心激情综合| 成人精品一区二区三区四区| 欧美羞羞免费网站| 国产亚洲精久久久久久| 亚洲国产精品麻豆| 成人一区二区视频| 欧美日韩不卡在线| 中文字幕一区二区视频| 精品一区二区久久| 欧美日韩在线播放一区| 国产亚洲欧美日韩在线一区| 亚洲一区二区三区四区的| 粉嫩一区二区三区在线看| 欧美精品久久99久久在免费线 | 91看片淫黄大片一级在线观看| 欧美精品自拍偷拍| 亚洲色图视频网站| 国产乱人伦偷精品视频免下载| 日本高清成人免费播放| 久久精品亚洲国产奇米99| 亚洲成av人影院| 91免费观看国产| 中文在线一区二区| 精品无人区卡一卡二卡三乱码免费卡 | 欧美精品一区二区三| 亚洲综合偷拍欧美一区色| 成人美女视频在线看| 久久综合色婷婷| 男人的j进女人的j一区| 欧美视频一区二| 一区二区三区精品视频| 91在线免费播放| 亚洲欧洲一区二区在线播放| 国产精品综合在线视频| 日韩一级免费一区| 石原莉奈在线亚洲三区| 欧美老肥妇做.爰bbww| 婷婷开心激情综合| 欧美高清性hdvideosex| 日韩精品一卡二卡三卡四卡无卡| 欧美日韩综合一区| 偷拍与自拍一区| 欧美一区永久视频免费观看| 偷拍亚洲欧洲综合| 日韩一区二区三区av| 蜜臀av性久久久久蜜臀aⅴ流畅 | 国产欧美日韩视频一区二区| 国产乱人伦精品一区二区在线观看| 欧美成人午夜电影| 国产精品1024| 国产精品嫩草影院av蜜臀| 色呦呦国产精品| 一区二区三区.www| 一区二区三区四区不卡在线 | 亚洲欧美乱综合| 色婷婷香蕉在线一区二区| 亚洲精品视频在线| 欧美日韩免费观看一区二区三区| 亚洲福利视频导航| 欧美一区二区三区在线观看视频| 久久精品久久精品| 国产欧美精品一区| 91视频免费看| 日韩中文字幕不卡| 精品日本一线二线三线不卡| 国产精品综合av一区二区国产馆| 中文字幕在线观看一区二区| 色88888久久久久久影院野外| 亚洲国产欧美日韩另类综合| 欧美一级搡bbbb搡bbbb| 成人性视频免费网站| 亚洲午夜精品网| 久久亚区不卡日本| 色综合久久久久网| 日本免费新一区视频| 中文字幕电影一区| 欧美男男青年gay1069videost| 精品中文av资源站在线观看| 国产精品理伦片| 日韩一区二区在线观看视频| 波多野洁衣一区| 日韩av高清在线观看| 国产精品蜜臀av| 日韩免费看的电影| 在线观看网站黄不卡| 国产成人精品1024| 日韩电影在线观看电影| 中文字幕一区二区三区在线观看| 在线综合亚洲欧美在线视频| 成人黄色电影在线| 久久精品国产秦先生| 亚洲精品久久久久久国产精华液| 欧美大尺度电影在线| 欧美日韩精品欧美日韩精品一综合| 国产一二三精品| 日韩精彩视频在线观看| 亚洲精品大片www| 国产精品午夜免费| 久久蜜臀中文字幕| 日韩视频免费观看高清完整版| 94-欧美-setu| 丁香网亚洲国际| 国产一区二区日韩精品| 美女精品一区二区| 视频一区视频二区中文| 亚洲一区二区影院| 有码一区二区三区| 国产精品理伦片| 国产精品美女www爽爽爽| 精品国产免费人成电影在线观看四季| 欧美美女bb生活片| 欧美三级日韩三级国产三级| 色婷婷久久久综合中文字幕| 91网上在线视频| 色综合天天性综合| 一本一道久久a久久精品综合蜜臀| av中文字幕在线不卡| 91在线视频免费91| 色婷婷激情久久| 在线观看免费成人| 欧美日韩国产影片| 777奇米成人网| 欧美日韩国产高清一区二区三区 | 91美女在线视频| 色哟哟一区二区在线观看 | 国内精品第一页| 国产综合久久久久影院| 国产麻豆9l精品三级站| 国产精品中文有码| 不卡视频在线看| 9久草视频在线视频精品| 色婷婷av一区二区三区软件| 欧美艳星brazzers| 91精品久久久久久久99蜜桃| 欧美岛国在线观看| 国产日产亚洲精品系列| 亚洲欧洲精品一区二区三区| 亚洲品质自拍视频| 日韩福利视频导航| 国产精一品亚洲二区在线视频| 99精品视频在线观看| 欧美日韩一区二区不卡| 精品久久久久久亚洲综合网 | 久久一区二区三区四区| 国产精品久久久久桃色tv| 一区二区国产盗摄色噜噜| 五月天丁香久久| 国产91精品一区二区麻豆网站| 91浏览器入口在线观看| 日韩欧美国产三级电影视频| 中文一区二区在线观看| 亚洲午夜在线视频| 国产麻豆成人精品| 欧美中文字幕不卡| 久久久精品2019中文字幕之3| 亚洲欧美一区二区三区极速播放| 蜜桃久久久久久久| 一本大道久久a久久综合婷婷| 日韩欧美成人午夜| 一级特黄大欧美久久久| 国产经典欧美精品| 91精品免费观看| 亚洲免费观看高清完整版在线观看熊 | 蜜臀国产一区二区三区在线播放 | 欧美一区二区福利在线| 亚洲欧洲中文日韩久久av乱码| 狠狠色丁香婷婷综合久久片|