新智元報道
編輯:Aeneas 傾傾
谷歌大模型將迎顛覆升級!Gemini負責人爆料:長上下文效率與長度雙重突破在即,注意力機制迎來驚人發現。Scaling Law未死,正加速演變!
谷歌又要有重大突破了?
最近,Google DeepMind的Gemini預訓練負責人Sebastian Borgeaud在采訪中給出重磅爆料——
未來一年,大模型預訓練領域將在「長上下文處理效率」和「上下文長度擴展」 兩大方向迎來重大技術創新。
同時,Google Gemini三巨頭——Jeff Dean、OriolVinyalsML和Noam Shazeer罕見同臺了,他們的對談中,跟Sebastian的內容展現出了驚人的一致。
眾多高瞻遠矚、閃爍著智慧光芒的思想讓人深思。
難怪,谷歌依然是那個巨人。
谷歌大佬激動預言
已破解大模型核心秘密
Google DeepMind的Gemini預訓練負責人Sebastian Borgeaud在最近的訪談中表示,預計在未來一年內,針對提升長上下文處理效率以及進一步擴展模型上下文長度的預訓練技術,將會有重大創新。
另外他還透露說,最近他們在注意力機制方面取得了一些非常有趣的發現,這可能在未來幾個月內重塑他們的研究方向。
對此,他表示非常興奮。
而且他提出了振聾發聵的一句話:Scaling Law并未消亡,只是正在演變!
Sebastian Borgeaud是Gemini 3的預訓練負責人。
這次,是他首次接受博客采訪,帶我們深入了解了Gemini 3背后的實驗室思維——變化究竟發生在哪里,為什么現在的工作不再是「訓練模型」,而是構建一個完整的系統。
Gemini 3背后:AI的未來正在加速到來
一場意外的飛躍后,一個系統誕生了。
「如果對自己誠實的話,我想……我們比我認為我們能達到的地方,走得更遠了。」
坐在麥克風前的Sebastian Bourjou語氣平靜,但這句話卻像一顆投入湖面的石子,激起無限漣漪。
為何Gemini 3會實現如此巨大的性能飛躍?
Sebastian的回答看似很簡單:「更好的預訓練和更好的后期訓練」。
然而,在這輕描淡寫的背后,是一個根本性的認知轉變。
「我們不再僅僅是在構建一個模型了,」他緩緩說道,「我認為,在這一點上,我們真正在構建的是一個系統。」
而這,就是Gemini 3顛覆性進步的關鍵。
人們常常想象,從一個Gemini版本到下一個版本,總有一些石破天驚的「秘密武器」。但Sebastian揭示的真相是:進步源于無數細微改進的聚合。是來自龐大團隊中,日復一日發現的那些「旋鈕」和優化。
他還指出,AI發展范式正在經歷的潛在轉移:過去,我們仿佛擁有無限數據,可以隨意擴大數據集;而現在,我們正轉向一個「數據有限」體制。
這意味著,未來的AI,必須要學會更高效地利用有限的數據資源,構建更復雜的系統工程。
這也就是模型架構研究的核心價值所在。
這一轉變,將迫使整個行業從「大力出奇跡」的粗放模式,轉向「精雕細琢」的精細模式。
未來的競爭焦點,將不再是「誰的數據中心更大」,而是「誰的學習算法更高效」、「誰的模型架構更優雅」、「誰能從有限數據中提取更多智慧」。
而Gemini 3的大腦架構——混合專家模型MoE,就代表了LLM發展的一條清晰路徑:從追求單純的「大」,轉向追求「大而高效,大而智能」。
AI的下一站——長上下文、高效檢索與「成本革命」
展望未來幾年的技術前沿,Sebastian指出了激動人心的方向,它們將共同塑造下一代AI的能力與形態。
1. 長上下文:從「短記憶」到「海量工作臺」
Gemini 1.5帶來的超長上下文能力,已經是一場變革。Sebastian預測,這方面的創新將持續加速。「我認為未來一年左右,將在使長上下文更高效、并進一步擴展上下文長度方面看到更多創新。」
這不僅僅是「記住更多」這么簡單。超長上下文將把模型變成一個真正的數字工作臺:它可以同時載入整個代碼庫、多篇科研論文、長時間對話歷史,并在其中進行連貫的分析、推理和創作。
這為復雜的多步任務、深度研究和創作提供了前所未有的可能,是邁向更強大「智能體」的關鍵基礎設施。
2. 注意力機制的進化
Sebastian特別提到,在注意力機制上,「我們最近有了一些真正有趣的發現,我認為這將塑造未來幾個月的大量研究。」他對此「個人非常興奮」。
這暗示著,被認為是當前大模型基石的注意力機制,仍有巨大的改進空間。
更高效、更強大或具備新特性的注意力機制,可能從底層顯著提升模型的理解、推理和計算效率,是推動性能邊界的重要杠桿。
3. 檢索的回歸:讓模型學會「查資料」
Sebastian早期曾主導「Retro」項目,研究讓模型在訓練和推理時檢索外部知識庫,而非將所有知識死記硬背在參數中。他認為,這一方向遠未過時。
「我內心深處相信,長期的答案是以可微分的方式學習這種能力。」這意味著,未來模型可能將檢索與推理更原生地結合,動態地從海量知識源中獲取信息進行思考,而非依賴后期「嫁接」的搜索工具。
這能讓模型更精準、更及時,并可能突破參數規模的知識容量限制。
4. 效率與成本的「革命」
一個日益凸顯的挑戰是:隨著用戶激增,模型的部署和服務成本變得至關重要。未來的研究將不再只追求性能峰值,還必須關注如何讓強大模型變得「便宜又好用」。
我仍看不到盡頭
采訪臨近尾聲,當我們把鏡頭拉回這位站在AI浪潮之巔的研究者本人時,Sebastian的回答透露著一種沉靜的樂觀與純粹的熱情。
盡管探討了數據瓶頸、成本挑戰等現實問題,但Sebastian對AI進步的總體判斷依然充滿信心。
「我已經多次提到這一點,但確實有如此多不同的事情會復合起來,還有許多有改進空間的方向。我現在真的看不到這類工作停止給我們帶來進步的任何盡頭。」
這種信心并非盲目。它源于他作為一線領航者所目睹的:大量細微但確定的改進空間,以及整個領域尚未枯竭的創造活力。
在他看來,至少在未來幾年,這種進步勢頭不會放緩。
規模不再是神話
Noam Shazeer回歸后的第一桶冷水
接下來,是Jeff Dean、Noam Shazeer、Oriol Vinyals三位大佬的對談。
在會議中,我們能明顯感受到,Noam不再是那個把油門踩到底的激進派。
他幾乎不主動談論「顛覆」,也很少用那些讓人血脈噴張的宏大詞匯。甚至一反常態,多次談到研發節奏、系統的穩定性,以及如何長期運行。
作為Transformer的開創者,他曾經引領著大模型從無到有;現在,大模型一路高歌猛進,他卻停下來警告:大模型給出的答案太快,自我檢查的次數太少。
他曾在公開場合反復強調:
現在的模型并不缺「聰明」,缺的是持續思考,并在復雜任務中反復修正的能力。
也就是說,大模型的規模依然重要,但它不再是決定一切的唯一變量。
當Noam討論推理時,他明顯將重心從「能不能更強」移向了「能不能更穩定」。
這是他回歸Google后,第一次在公開場合展現這種判斷。
聽起來并不像是否定過去,而更像是在承認一個事實:那條單純靠堆參數就能不斷前進的路,已經接近邊界了。
頂級科學家的共識:一次高分,不能定義AI的未來
Noam提到一個詞:慢思考(Slow Thinking)。
不只是簡單的放慢研發速度,而是反復追問值不值、貴不貴、能不能被規模化復制。
至此,智能不再是一項抽象的能力,而是一項需要長期支付的工程開銷,需要和CPU、硬盤一起放進賬本里討論。
這一步一旦邁出去,很多過去衡量AI的標準,如Benchmark也在慢慢失效。
在整場會議中,三位頂級科學家沒有表現出對榜單的興奮,也沒用「誰贏了誰」來定義進展。
榜單擅長衡量瞬時表現,卻很難回答「能不能一直運行」這類長期問題。
而Noam和Jeff反復強調的,恰恰是后者:模型是否可靠、是否具備遷移能力、是否能在復雜任務中持續自我修正。
這些能力,很難被壓縮成一個漂亮的數字。
Gemini被當成System,而不是Model
在這場對談里,「System」出現的頻率極高,這顯然不是一種修辭。
Noam和Jeff在描述Gemini時,刻意避開了「一個更強的模型」這種表述,而是反復強調它是一個可以長期運行、不斷迭代的「系統」。
「系統」和「模型」,聽起來差不多,但背后的邏輯天差地別。
「模型」更像是一次性的成果,是在實驗室里的瞬間表現;而「系統」更像基礎設施,它關心的是穩定性、可擴展性,以及在出現錯誤后能不能快速修復并繼續工作。
對于Noam這類,極度強調架構設計、研發節奏和工程約束的人,天然會更在意一個系統能不能穩健地運行十年、二十年,而不是某一次響應速度有多快。
在他們眼中,Gemini不是勝利者的獎品,而是一種「長期可用」的智能形態。
正因如此,整場對談沒有急于求成的產品宣發,沒有劍拔弩張的「對標某模型」。
它更像是在對外強調:Google追求的不是曇花一現的成品,而是一套能反復使用、不斷進化的智能工業體系。







