在人工智能領域,大模型“災難性遺忘”問題一直是阻礙技術突破的關鍵瓶頸。近日,谷歌研究院提出的一項名為“嵌套學習”(Nested Learning)的創新架構,為解決這一難題提供了全新思路。其研發的Hope模型在語言建模與長上下文記憶任務中超越傳統Transformer架構,標志著大模型向自我改進能力邁出重要一步。
“災難性遺忘”現象表現為模型在學習新任務時,會顯著喪失對舊任務的掌握能力。例如,完成減法運算訓練后可能遺忘加法規則,或在切換游戲任務時性能驟降至隨機水平。這種局限源于傳統架構將知識固定在預訓練階段或即時上下文窗口中,導致新信息覆蓋舊知識。盡管研究人員嘗試通過調整網絡結構或優化算法緩解問題,但始終未能突破模型結構與訓練規則割裂的固有框架。
谷歌團隊提出的嵌套學習范式,將機器學習模型重構為多層嵌套的優化系統。每個層級具有獨立的信息流和更新頻率,形成類似人腦神經可塑性的多時間尺度更新機制。研究指出,Transformer模型的注意力機制本質上是簡單的聯想記憶模塊,而嵌套學習通過定義組件參數的更新頻率,構建出層級化的優化結構。這種設計使模型能夠同時處理短期上下文與長期知識,避免信息壓縮導致的遺忘。
基于嵌套學習原則開發的Hope模型,在實驗中展現出顯著優勢。該模型采用遞歸架構實現無限層級的上下文內學習,結合連續記憶系統(CMS)擴展上下文窗口容量。在語言建模任務中,Hope的困惑度低于現代遞歸模型與標準Transformer;在長序列處理任務中,其性能超越TTT與Mamba2等先進架構。研究團隊通過多組實驗驗證,當模型結構與優化過程統一為嵌套系統時,學習效率與自我改進能力得到質的提升。
嵌套學習框架不僅提出理論創新,更衍生出深度優化器與連續記憶系統等實用技術。深度優化器將傳統優化算法重構為聯想記憶模塊,通過改進動量更新公式增強對不完美數據的魯棒性;連續記憶系統則構建多模塊記憶譜系,使不同組件以差異化頻率更新參數。這種設計模擬了人腦中統一結構與多尺度更新的協同機制,為持續學習提供了更高效的解決方案。
該研究成果已被NeurIPS 2025收錄,其核心突破在于打破模型結構與訓練算法的界限。研究團隊通過理論推導與實驗驗證,證明將優化層級與信息流動統一后,學習系統能夠同時實現表現力提升與效率優化。這一發現為彌合人工模型與人類持續學習能力差距奠定了基礎,可能推動大模型從靜態知識存儲向動態自我進化轉變。










