在NeurIPS 2025會(huì)議上,谷歌一口氣發(fā)布了兩項(xiàng)突破性研究,針對(duì)大模型架構(gòu)提出全新解決方案。通過引入“測試時(shí)訓(xùn)練”機(jī)制,新架構(gòu)成功將上下文處理窗口擴(kuò)展至200萬token,同時(shí)保持高效計(jì)算能力。這項(xiàng)成果被業(yè)界視為對(duì)Transformer架構(gòu)的重大升級(jí),尤其在處理超長序列任務(wù)時(shí)展現(xiàn)出顯著優(yōu)勢。
研究團(tuán)隊(duì)指出,傳統(tǒng)Transformer架構(gòu)的自注意力機(jī)制存在根本性缺陷:當(dāng)序列長度增加時(shí),計(jì)算復(fù)雜度呈平方級(jí)增長(O(N2))。盡管學(xué)界已嘗試線性循環(huán)網(wǎng)絡(luò)(RNNs)和狀態(tài)空間模型(SSMs)等替代方案,但這些方法在信息壓縮過程中往往丟失關(guān)鍵上下文。谷歌此次提出的Titans架構(gòu)與MIRAS理論框架,通過動(dòng)態(tài)記憶機(jī)制實(shí)現(xiàn)了速度與性能的平衡。
Titans架構(gòu)的核心創(chuàng)新在于引入神經(jīng)長期記憶模塊。與傳統(tǒng)RNN固定大小的記憶單元不同,該模塊采用多層感知機(jī)(MLP)結(jié)構(gòu),并在推理階段持續(xù)更新權(quán)重。其MAC變體通過將長期記憶作為額外上下文輸入注意力機(jī)制,在不改變基礎(chǔ)計(jì)算方式的前提下,顯著提升了模型對(duì)海量信息的概括能力。實(shí)驗(yàn)數(shù)據(jù)顯示,該架構(gòu)在“大海撈針”任務(wù)中保持高準(zhǔn)確率的同時(shí),成功將上下文窗口擴(kuò)展至200萬token。
記憶模塊的更新策略借鑒了人類認(rèn)知心理學(xué)中的“意外原則”。研究人員設(shè)計(jì)了“驚喜指標(biāo)”來量化新輸入與當(dāng)前記憶的差異程度:當(dāng)輸入內(nèi)容符合預(yù)期(如模型預(yù)測會(huì)出現(xiàn)動(dòng)物詞匯時(shí)出現(xiàn)“貓”)時(shí),系統(tǒng)僅作短期存儲(chǔ);而當(dāng)出現(xiàn)異常輸入(如財(cái)務(wù)報(bào)告中突然出現(xiàn)香蕉皮圖片)時(shí),系統(tǒng)會(huì)優(yōu)先將其納入長期記憶。這種選擇性更新機(jī)制使模型在保持高效的同時(shí),精準(zhǔn)捕捉關(guān)鍵信息。
作為理論支撐的MIRAS框架,則提供了序列建模的統(tǒng)一設(shè)計(jì)范式。該框架將任意序列模型解構(gòu)為四個(gè)關(guān)鍵組件:內(nèi)存架構(gòu)、注意力偏差、保留門控和記憶算法。通過引入非歐幾里得目標(biāo)函數(shù),MIRAS允許使用更復(fù)雜的數(shù)學(xué)優(yōu)化機(jī)制。基于該框架開發(fā)的YAAD、MONETA和MEMORA三個(gè)無注意力模型,在實(shí)驗(yàn)中展現(xiàn)出超越Mamba 2等線性模型及同等規(guī)模Transformer的性能優(yōu)勢。
性能對(duì)比實(shí)驗(yàn)顯示,新架構(gòu)在處理極長上下文時(shí)表現(xiàn)尤為突出。在參數(shù)規(guī)模顯著小于GPT-4等主流模型的情況下,其綜合性能仍保持領(lǐng)先。研究人員特別強(qiáng)調(diào),這種優(yōu)勢不僅體現(xiàn)在基準(zhǔn)測試中,更在實(shí)際應(yīng)用場景(如法律文書分析、科研文獻(xiàn)綜述)中得到驗(yàn)證。谷歌團(tuán)隊(duì)認(rèn)為,這種混合架構(gòu)為下一代大模型開發(fā)提供了全新思路。
在會(huì)議現(xiàn)場,谷歌首席科學(xué)家Jeff Dean回應(yīng)了關(guān)于Transformer技術(shù)公開的爭議。當(dāng)被問及是否后悔將這項(xiàng)改變AI格局的技術(shù)開源時(shí),他明確表示:“Transformer對(duì)全球技術(shù)發(fā)展產(chǎn)生了深遠(yuǎn)影響,這種開放共享的決策符合科技進(jìn)步的本質(zhì)。”這一表態(tài)引發(fā)與會(huì)者熱烈討論,多數(shù)專家認(rèn)為,谷歌通過持續(xù)創(chuàng)新證明,技術(shù)領(lǐng)導(dǎo)力不在于固守既有成果,而在于不斷突破自我邊界。







