谷歌AI領域迎來一項突破性進展,其核心負責人Jeff Dean公開點贊的嵌套學習(Nested Learning,簡稱NL)研究引發廣泛關注。這項由清華姚班校友鐘沛林團隊主導的研究,為大語言模型長期存在的“災難性遺忘”問題提供了創新解決方案。實驗數據顯示,基于NL范式構建的Hope模型在語言建模與長上下文推理任務中,全面超越主流基線模型。
傳統深度學習框架長期依賴“堆疊網絡層數+擴大參數規模”的粗放式發展路徑,但這種模式逐漸暴露出邊際效益遞減的困境。研究團隊指出,當模型參數突破臨界值后,繼續增加層數不僅難以提升性能,反而可能引發訓練效率下降、泛化能力弱化等問題。更嚴峻的是,現有模型普遍存在“順行性遺忘”缺陷——完成預訓練后便喪失持續學習新知識的能力,只能依賴有限的上下文窗口或固化參數,與人類動態積累知識的認知模式形成鮮明對比。
嵌套學習的突破性在于重構了機器學習底層架構。研究團隊從人類大腦的記憶機制中獲取靈感,將在線鞏固與離線鞏固的協同工作模式數字化,構建出多層級嵌套的優化體系。在這個系統中,每個層級配備獨立的上下文流與更新頻率:高頻模塊負責實時處理輸入數據,低頻模塊則沉淀長期知識規律,形成類似人類記憶的分層管理機制。這種設計使得模型既能快速響應新信息,又能保持長期穩定性。
研究團隊通過三大核心創新實現范式升級。深度優化器突破傳統優化器的固定公式限制,引入預處理機制識別梯度特征,利用神經網絡存儲歷史梯度規律,實現動態參數調整;自我修改模型賦予架構自主進化能力,在訓練過程中自動學習參數更新規則,無需人工干預即可適配新領域數據;連續記憶系統將傳統二元記憶結構升級為多尺度記憶鏈,不同模塊按不同頻率更新,分別承擔短期細節存儲與長期規律提煉功能。
實驗環節驗證了理論創新的實際價值。在涵蓋760M至1.3B參數規模的測試中,Hope模型在Wiki文本困惑度、PIQA物理常識推理、Winograd指代消解等關鍵指標上全面領先。特別是在處理長上下文時,其多層級記憶系統展現出顯著優勢,既能捕捉局部細節特征,又能把握全局語義關聯,有效解決了傳統模型在長序列處理中的信息丟失問題。該研究成果已被NeurIPS 2025學術會議接收。
這項突破性研究的背后,站著一位特殊的青年科學家——鐘沛林。這位2016屆清華姚班畢業生,早在中學時期就展現出非凡天賦。據知情人士透露,他在雅禮中學就讀期間,常在深夜參與全球編程挑戰,與各國選手同臺競技。2012年國際信息學奧林匹克競賽(IOI)上,他與同校學子艾雨青雙雙斬獲金牌,并因此獲得清華姚班保送資格。這段發小情誼延續至學術領域,兩人分別在計算機科學與軟件工程方向深耕,最終共同入職meta公司擔任關鍵技術崗位。
鐘沛林的學術軌跡堪稱開掛式成長:從雅禮中學競賽明星到清華姚班精英,再到哥倫比亞大學計算機博士,最終成為谷歌紐約研究院算法團隊的核心成員。其研究領域橫跨優化理論、神經架構設計與持續學習系統,在頂級學術會議發表多篇高影響力論文。此次嵌套學習研究的突破,不僅驗證了跨學科研究路徑的可行性,也為AI領域培養復合型創新人才提供了生動范本。











