在人工智能領(lǐng)域,大模型的可解釋性一直是備受關(guān)注的焦點(diǎn)。近日,OpenAI公布了一項(xiàng)關(guān)于訓(xùn)練小模型的新研究,旨在讓模型的內(nèi)部機(jī)制更易于人類理解,為提升模型可解釋性提供了新的思路。
OpenAI指出,當(dāng)前ChatGPT背后的語(yǔ)言模型結(jié)構(gòu)復(fù)雜,其具體工作原理尚未被完全掌握。此次研究就是為了縮小這一認(rèn)知差距。研究人員提出的核心思路是訓(xùn)練稀疏模型,這類模型神經(jīng)元連接少,但神經(jīng)元數(shù)量多,通過(guò)簡(jiǎn)化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),使其更易理解。
研究人員認(rèn)為,雖然推理模型通過(guò)思維鏈展現(xiàn)出的可解釋性在短期內(nèi)有一定價(jià)值,能捕捉到模型的“欺騙”等行為,但完全依賴這一特性并不可靠,且隨著時(shí)間推移可能失效。要更深入地理解模型機(jī)制,需對(duì)模型計(jì)算過(guò)程進(jìn)行完全逆向工程。然而,復(fù)雜密集網(wǎng)絡(luò)中每個(gè)神經(jīng)元與其他數(shù)千個(gè)神經(jīng)元相連,且執(zhí)行不同功能,理解難度極大。因此,訓(xùn)練擁有眾多神經(jīng)元但每個(gè)神經(jīng)元連接少的模型成為研究的關(guān)鍵。
基于這一思路,研究人員以現(xiàn)代語(yǔ)言模型基礎(chǔ)架構(gòu)(類似GPT - 2)為基礎(chǔ),僅做一個(gè)小改動(dòng)——強(qiáng)制將模型大部分權(quán)重設(shè)為0,從而訓(xùn)練出一個(gè)小模型。
有了稀疏模型后,研究人員著手找出模型在各項(xiàng)任務(wù)中的“回路”。這里的“回路”指模型精準(zhǔn)完成特定任務(wù)的最小計(jì)算單元,由節(jié)點(diǎn)和邊組成,其規(guī)模通過(guò)節(jié)點(diǎn)和邊數(shù)量衡量,論文將回路邊數(shù)幾何平均值作為解釋性量化指標(biāo)。為評(píng)估模型可解釋性,研究人員設(shè)計(jì)了一系列簡(jiǎn)單算法任務(wù),并將每個(gè)模型精簡(jiǎn)到能完成任務(wù)的“最小回路”。
以一個(gè)Python任務(wù)為例,任務(wù)要求“hello”必須以單引號(hào)結(jié)尾,“hello”必須以雙引號(hào)結(jié)尾,模型需根據(jù)字符串開(kāi)頭引號(hào)類型預(yù)測(cè)結(jié)尾引號(hào)并自動(dòng)補(bǔ)全。得到的回路僅使用5個(gè)殘差通道、第0層的兩個(gè)MLP神經(jīng)元,以及第10層的一個(gè)注意力查詢鍵通道和一個(gè)值通道。其流程為:先將單、雙引號(hào)分別編碼到不同殘差通道;再用MLP層將編碼結(jié)果轉(zhuǎn)換為兩個(gè)通道,一個(gè)檢測(cè)任意引號(hào),一個(gè)區(qū)分單、雙引號(hào);接著用注意力機(jī)制忽略中間token,找到前一個(gè)引號(hào)并復(fù)制其類型到最后一個(gè)token;最后預(yù)測(cè)匹配的結(jié)尾引號(hào)。
論文還對(duì)變量綁定等更復(fù)雜行為進(jìn)行研究,這些行為的回路雖難以完全解釋,但仍能得出相對(duì)簡(jiǎn)單的部分解釋以預(yù)測(cè)模型行為。研究人員還發(fā)現(xiàn),訓(xùn)練更大、更稀疏的模型,能生成功能更強(qiáng)大、回路更簡(jiǎn)單的模型,這表明該方法有望用于理解更復(fù)雜行為。
不過(guò),研究人員也強(qiáng)調(diào),這項(xiàng)工作尚處早期階段。稀疏模型比前沿模型小很多,且計(jì)算過(guò)程仍有不少“黑盒”部分。目前稀疏模型訓(xùn)練效率較低。為解決這一問(wèn)題,研究人員提出兩種途徑:一是從現(xiàn)有密集模型中提取稀疏回路,而非從頭訓(xùn)練;二是開(kāi)發(fā)更高效的模型訓(xùn)練技術(shù)以提高可解釋性。











