大型語(yǔ)言模型雖在諸多領(lǐng)域展現(xiàn)出強(qiáng)大能力,但始終面臨一個(gè)關(guān)鍵難題:難以像人類(lèi)大腦那樣持續(xù)學(xué)習(xí)新技能,同時(shí)不遺忘舊知識(shí)。傳統(tǒng)模型的知識(shí)獲取主要依賴(lài)預(yù)訓(xùn)練數(shù)據(jù)和有限的上下文窗口,當(dāng)新數(shù)據(jù)涌入時(shí),直接更新模型參數(shù)往往會(huì)導(dǎo)致“災(zāi)難性遺忘”——新任務(wù)表現(xiàn)提升的同時(shí),舊任務(wù)性能大幅下滑。這一瓶頸嚴(yán)重制約了AI向更通用、更智能的方向發(fā)展。
為突破這一困境,谷歌研究院提出了一項(xiàng)名為“嵌套學(xué)習(xí)”(Nested Learning)的全新機(jī)器學(xué)習(xí)范式,并在NeurIPS 2025會(huì)議上詳細(xì)闡述了其核心機(jī)制。該范式顛覆了傳統(tǒng)將模型架構(gòu)與優(yōu)化算法分開(kāi)設(shè)計(jì)的思路,將復(fù)雜模型視為一系列相互嵌套或并行的優(yōu)化問(wèn)題。每個(gè)問(wèn)題擁有獨(dú)立的“上下文流”和更新速率,形成多層次的計(jì)算結(jié)構(gòu),從而為緩解災(zāi)難性遺忘提供了新的理論框架。
基于這一范式,研究團(tuán)隊(duì)開(kāi)發(fā)了兩項(xiàng)關(guān)鍵技術(shù):一是“深度優(yōu)化器”,通過(guò)將優(yōu)化器本身轉(zhuǎn)化為可學(xué)習(xí)的模塊,并優(yōu)化其底層目標(biāo)函數(shù),使其對(duì)不完整或噪聲數(shù)據(jù)更具適應(yīng)性;二是“連續(xù)體內(nèi)存系統(tǒng)”(CMS),將模型內(nèi)存設(shè)計(jì)為由多個(gè)更新頻率不同的模塊組成的光譜結(jié)構(gòu),實(shí)現(xiàn)從短期記憶到長(zhǎng)期記憶的平滑過(guò)渡。這種分層內(nèi)存機(jī)制顯著提升了模型處理超長(zhǎng)信息序列的能力。
為驗(yàn)證理論有效性,團(tuán)隊(duì)構(gòu)建了名為“Hope”的概念驗(yàn)證模型。該模型基于Titans架構(gòu),深度整合了連續(xù)體內(nèi)存系統(tǒng),通過(guò)自我參照機(jī)制動(dòng)態(tài)優(yōu)化內(nèi)存結(jié)構(gòu),實(shí)現(xiàn)了近乎無(wú)限層級(jí)的上下文學(xué)習(xí)。實(shí)驗(yàn)數(shù)據(jù)顯示,在語(yǔ)言建模和常識(shí)推理任務(wù)中,Hope的困惑度顯著低于現(xiàn)代循環(huán)模型和標(biāo)準(zhǔn)Transformer,準(zhǔn)確性提升幅度明顯。
在針對(duì)長(zhǎng)文本記憶能力的“大海撈針”(NIAH)測(cè)試中,Hope的表現(xiàn)尤為突出。該測(cè)試要求模型從超長(zhǎng)文本中精準(zhǔn)定位并回答特定信息點(diǎn),模擬人類(lèi)在海量數(shù)據(jù)中提取關(guān)鍵內(nèi)容的能力。實(shí)驗(yàn)結(jié)果表明,Hope的內(nèi)存管理效率遠(yuǎn)超現(xiàn)有模型,證明連續(xù)體內(nèi)存系統(tǒng)是處理超長(zhǎng)信息序列的有效方案。這一突破為開(kāi)發(fā)真正具備“溫故知新”能力的AI系統(tǒng)奠定了技術(shù)基礎(chǔ)。
NIAH測(cè)試作為評(píng)估大型語(yǔ)言模型長(zhǎng)文本理解能力的基準(zhǔn)工具,通過(guò)模擬“草堆中找針”的場(chǎng)景,要求模型在極長(zhǎng)文本中準(zhǔn)確識(shí)別并回答特定問(wèn)題。Hope在該測(cè)試中的優(yōu)異表現(xiàn),不僅驗(yàn)證了嵌套學(xué)習(xí)范式的實(shí)用性,也為未來(lái)AI在復(fù)雜信息處理領(lǐng)域的應(yīng)用提供了新方向。











