谷歌AI掌門人Jeff Dean近日點贊了一項突破性研究,這項由清華姚班校友鐘沛林團隊主導的嵌套學習(Nested Learning,簡稱NL)范式,為解決大語言模型長期存在的災難性遺忘問題提供了新思路。研究團隊提出的Hope模型在語言建模與長上下文任務中展現出顯著優勢,相關論文已被NeurIPS 2025接收。
傳統深度學習模型采用扁平化參數更新模式,通過堆疊網絡層數或擴大模型規模提升性能,但這種"暴力堆參"的方式已逐漸觸及瓶頸。研究指出,當前主流的Transformer架構本質上是NL范式的簡化版本,其線性層結構未能充分發揮多層級協同的潛力。NL范式借鑒人類大腦的記憶機制,將模型重構為嵌套式優化體系,不同層級以差異化頻率更新,實現短期記憶與長期規律的分層管理。
該研究提出三大核心創新:深度優化器通過神經網絡預判梯度變化,替代傳統優化器的固定公式;自我修改模型使架構在訓練中自主調整參數,無需人工干預;連續記憶系統將二元記憶結構升級為多尺度記憶鏈,不同模塊分別處理實時細節與長期規律。這些創新最終凝聚為Hope模型,在760M至1.3B參數規模下,其語言建模能力與推理水平均超越Transformer等主流模型,在Wiki文本困惑度、物理常識推理等指標上表現尤為突出。
這項研究的背后站著一位特殊的清華姚班校友——鐘沛林。這位2016屆畢業生在高中時期已是國際信息學競賽的明星選手,2012年代表雅禮中學奪得IOI金牌,與發小艾雨青并稱"雅禮雙子星"。哥倫比亞大學博士畢業后,他加入谷歌紐約研究院擔任算法科學家,期間主導了嵌套學習范式的研究。如今這對雙子星已先后入職meta,分別擔任AI科學家與軟件工程師,繼續在人工智能領域開拓新方向。
嵌套學習范式的提出標志著深度學習架構的范式轉移。通過模擬人類認知機制,該研究為模型持續學習、長上下文推理等難題提供了全新解決方案。當AI模型從靜態計算網絡進化為分層協作的智能系統,或許將開啟真正具備終身學習能力的通用人工智能新時代。











