谷歌研究院在持續(xù)學(xué)習(xí)領(lǐng)域取得重要突破,其提出的“嵌套學(xué)習(xí)”架構(gòu)被NeurIPS 2025會議收錄。這項研究通過重新定義機(jī)器學(xué)習(xí)模型的構(gòu)建方式,為解決大模型“災(zāi)難性遺忘”問題提供了全新思路。實(shí)驗表明,基于該架構(gòu)的Hope模型在語言建模和長序列記憶任務(wù)中表現(xiàn)超越Transformer架構(gòu),標(biāo)志著大模型向自我進(jìn)化能力邁出關(guān)鍵一步。
“災(zāi)難性遺忘”是神經(jīng)網(wǎng)絡(luò)領(lǐng)域的頑疾,表現(xiàn)為模型在學(xué)習(xí)新任務(wù)時迅速喪失原有能力。典型案例包括:掌握減法運(yùn)算后遺忘加法規(guī)則、切換游戲場景時性能驟降、微調(diào)過程中出現(xiàn)風(fēng)格偏移等。這種現(xiàn)象源于傳統(tǒng)模型將知識固定在靜態(tài)參數(shù)中,導(dǎo)致新信息輸入時必然覆蓋舊知識,與人類持續(xù)積累知識的能力形成鮮明對比。
研究團(tuán)隊突破性地提出將模型解構(gòu)為多層嵌套的優(yōu)化系統(tǒng)。不同于傳統(tǒng)將網(wǎng)絡(luò)結(jié)構(gòu)與訓(xùn)練算法分離的做法,嵌套學(xué)習(xí)認(rèn)為二者本質(zhì)是同一優(yōu)化過程的不同層級。這種視角下,每個子模塊都擁有獨(dú)立的信息流和更新頻率,形成類似人腦的多時間尺度學(xué)習(xí)機(jī)制。例如,淺層模塊快速適應(yīng)即時輸入,深層模塊則緩慢整合長期知識。
實(shí)驗中構(gòu)建的Hope模型驗證了理論可行性。該架構(gòu)在Titans長期記憶機(jī)制基礎(chǔ)上,通過遞歸自指結(jié)構(gòu)實(shí)現(xiàn)無限層級的學(xué)習(xí)嵌套。配合連續(xù)記憶系統(tǒng)(CMS),模型能動態(tài)調(diào)整各組件的更新頻率:高頻模塊處理當(dāng)前上下文,低頻模塊鞏固歷史知識。這種設(shè)計使Hope在語言建模任務(wù)中取得更低困惑度,在長序列處理中超越TTT和Mamba2等先進(jìn)模型。
技術(shù)細(xì)節(jié)顯示,嵌套學(xué)習(xí)將優(yōu)化器重構(gòu)為聯(lián)想記憶模塊。傳統(tǒng)動量優(yōu)化器通過點(diǎn)積相似度計算樣本關(guān)系,而新框架采用標(biāo)準(zhǔn)損失函數(shù)作為優(yōu)化目標(biāo),顯著提升對噪聲數(shù)據(jù)的魯棒性。在記憶系統(tǒng)方面,連續(xù)記憶譜系突破Transformer的短期-長期二分法,通過多頻率更新實(shí)現(xiàn)更精細(xì)的知識管理。這種設(shè)計使模型既能快速響應(yīng)新信息,又能穩(wěn)定保持歷史知識。
研究團(tuán)隊通過多維度實(shí)驗證明技術(shù)優(yōu)勢。在持續(xù)學(xué)習(xí)場景中,Hope模型在知識整合任務(wù)上準(zhǔn)確率提升12%;長序列處理方面,其有效上下文窗口擴(kuò)展至傳統(tǒng)模型的3倍。這些成果表明,當(dāng)架構(gòu)設(shè)計與優(yōu)化算法形成統(tǒng)一優(yōu)化系統(tǒng)時,模型將獲得更強(qiáng)的表達(dá)力和自修正能力。
該研究為彌合機(jī)器學(xué)習(xí)與人腦神經(jīng)可塑性之間的差距提供了新范式。通過模擬人腦中不同腦區(qū)的協(xié)同工作機(jī)制,嵌套學(xué)習(xí)架構(gòu)使人工神經(jīng)網(wǎng)絡(luò)首次具備類似的多尺度更新能力。這項突破不僅解決災(zāi)難性遺忘的技術(shù)難題,更為開發(fā)真正具備持續(xù)學(xué)習(xí)能力的通用人工智能奠定基礎(chǔ)。











