谷歌AI負責人Jeff Dean近日點贊了一項突破性研究,這項由清華姚班校友鐘沛林團隊主導的成果,為解決大語言模型長期存在的災難性遺忘問題提供了全新思路。研究提出的Nested Learning(嵌套學習,簡稱NL)范式,通過模擬人類大腦的分層記憶機制,構建出具備動態學習能力的智能系統。
傳統深度學習模型存在顯著局限:預訓練完成后難以吸收新知識,依賴固定參數和有限上下文窗口,無法像人類一樣實現知識的動態積累。更嚴峻的是,單純增加網絡層數或模型規模已難以帶來性能提升,反而可能導致訓練效率下降和泛化能力不足。研究團隊從人類大腦的記憶機制中汲取靈感,發現大腦通過在線鞏固與離線鞏固的協同作用,實現短期記憶快速更新與長期記憶緩慢沉淀的分層管理。
NL范式將這種生物機制數字化,構建出多層級的優化體系。每個層級配備獨立的上下文流和更新頻率,形成類似聯想記憶的模塊化結構:部分模塊快速響應實時數據,另一些則沉淀長期規律。這種分層協作模式突破了Transformer架構的線性層限制——后者本質上是NL范式的簡化版本,未能充分發揮多層級協同優勢。研究團隊開發的Hope模型基于此范式,在語言建模和長上下文記憶任務中全面超越主流模型,在Wiki文本困惑度、物理常識推理等指標上表現尤為突出。
該研究帶來三大核心創新:深度優化器通過神經網絡存儲梯度規律,實現參數動態調整;自我修改模型突破固定更新規則,在訓練中自主優化架構;連續記憶系統將傳統二元記憶結構升級為多尺度記憶鏈,不同模塊按頻率更新,分別處理短期細節與長期規律。這些創新使Hope模型在760M至1.3B參數范圍內,均展現出超越Transformer、RetNet等基線模型的性能。
這項研究的領軍人物鐘沛林,2016年畢業于清華姚班,2021年獲得哥倫比亞大學計算機博士學位后加入谷歌紐約研究院。他的學術軌跡早有預兆:中學時期就以競賽達人著稱,深夜與全球選手同步編程做題,2012年代表雅禮中學奪得國際信息學奧林匹克競賽金牌。與鐘沛林同年獲獎的還有三位中國選手,其中發小艾雨青受其影響走上競賽道路,兩人作為雅禮中學雙子星保送清華姚班。
目前這對昔日搭檔已先后入職meta,鐘沛林擔任AI科學家,艾雨青則從事軟件工程開發。他們的職業軌跡折射出中國頂尖計算機人才在國際舞臺的持續影響力,而NL范式的提出,更標志著深度學習領域正從參數堆砌轉向認知機制探索的新階段。











