在人工智能領域,谷歌始終站在技術前沿,其一舉一動都備受矚目。近期,Google DeepMind的Gemini預訓練負責人Sebastian Borgeaud在一場訪談中,透露了未來大模型預訓練領域的重大發展方向,引發了行業內的廣泛關注。
Sebastian Borgeaud指出,在未來一年內,大模型預訓練將在兩個關鍵方向取得重大技術創新,分別是提升長上下文處理效率以及進一步擴展模型上下文長度。這一預測并非空穴來風,而是基于他們團隊在相關領域的深入研究和探索。他透露,最近在注意力機制方面,團隊有了一些非常有趣的發現,這些發現極有可能在未來幾個月內重塑研究方向,為模型性能的提升帶來新的突破。
Sebastian還強調了一個重要觀點:“Scaling Law并未消亡,只是正在演變。”這一觀點打破了傳統認知,為AI發展注入了新的思考。作為Gemini 3的預訓練負責人,Sebastian首次接受博客采訪,深入剖析了Gemini 3背后的研發思路。他表示,如今的工作不再局限于“訓練模型”,而是致力于構建一個完整的系統。這種轉變看似簡單,實則是一個根本性的認知升級。
Gemini 3之所以能實現巨大的性能飛躍,背后是無數細微改進的聚合。Sebastian提到,龐大團隊日復一日地發現并優化各種“旋鈕”,才帶來了如今的成果。同時,他也指出AI發展范式正在發生潛在轉移。過去,數據似乎取之不盡,我們可以隨意擴大數據集;但現在,我們正逐漸步入“數據有限”的時代。這意味著未來的AI必須學會更高效地利用有限的數據資源,構建更復雜的系統工程。
這一轉變將促使整個行業從“大力出奇跡”的粗放模式,轉向“精雕細琢”的精細模式。未來的競爭焦點將不再是誰擁有更大的數據中心,而是誰的學習算法更高效、模型架構更優雅、誰能從有限數據中提取更多智慧。Gemini 3采用的混合專家模型MoE,就代表了大型語言模型(LLM)發展的清晰路徑:從單純追求“大”,轉向追求“大而高效,大而智能”。
展望未來幾年的技術前沿,Sebastian指出了幾個激動人心的方向。首先是長上下文處理能力。Gemini 1.5已經展現了超長上下文能力帶來的變革,而Sebastian預測,未來一年左右,在使長上下文更高效、進一步擴展上下文長度方面將會有更多創新。超長上下文將使模型變成一個真正的數字工作臺,能夠同時載入整個代碼庫、多篇科研論文、長時間對話歷史,并進行連貫的分析、推理和創作,為復雜任務和深度研究提供前所未有的可能。
其次是注意力機制的進化。Sebastian特別提到,團隊在注意力機制上有了一些真正有趣的發現,這將塑造未來幾個月的大量研究。作為當前大模型的基石,注意力機制仍有巨大的改進空間,更高效、更強大或具備新特性的注意力機制有望從底層顯著提升模型的理解、推理和計算效率。
檢索能力的回歸也是重要方向之一。Sebastian早期主導的“Retro”項目,研究讓模型在訓練和推理時檢索外部知識庫,而非將所有知識死記硬背在參數中。他認為這一方向遠未過時,未來模型可能將檢索與推理更原生地結合,動態地從海量知識源中獲取信息進行思考,突破參數規模的知識容量限制。
效率與成本的“革命”也日益凸顯。隨著用戶激增,模型的部署和服務成本變得至關重要。未來的研究將不僅追求性能峰值,還必須關注如何讓強大模型變得“便宜又好用”。
與此同時,Jeff Dean、Noam Shazeer、Oriol Vinyals三位谷歌頂級科學家的對談也傳遞出重要信息。作為Transformer的開創者,Noam Shazeer回歸谷歌后,態度發生了明顯變化。他不再像過去那樣激進地追求“顛覆”,而是多次談到研發節奏、系統穩定性以及長期運行等問題。他指出,現在的模型并不缺“聰明”,缺的是持續思考和在復雜任務中反復修正的能力。大模型的規模依然重要,但不再是決定一切的唯一變量。
Noam提到的“慢思考”理念,并非簡單地放慢研發速度,而是反復權衡值不值、貴不貴、能不能被規模化復制。智能不再是一項抽象的能力,而是一項需要長期投入的工程開銷,需要和CPU、硬盤等資源一起納入成本考量。這一理念的轉變,使得過去衡量AI的標準,如Benchmark逐漸失效。三位科學家在會議中沒有表現出對榜單的興奮,而是更關注模型是否可靠、是否具備遷移能力、是否能在復雜任務中持續自我修正。
在這場對談中,“System”一詞頻繁出現。Noam和Jeff在描述Gemini時,刻意強調它是一個可以長期運行、不斷迭代的“系統”,而非“一個更強的模型”。“模型”更像是一次性的成果,而“系統”則更像基礎設施,關注穩定性、可擴展性以及錯誤修復能力。對于注重架構設計、研發節奏和工程約束的科學家們來說,一個系統能否穩健運行十年、二十年,遠比某一次響應速度有多快更為重要。在他們眼中,Gemini不是勝利者的獎品,而是一種“長期可用”的智能形態。








