OpenAI近期低調(diào)開源了一款參數(shù)規(guī)模僅0.4B的新型大語言模型,其核心創(chuàng)新在于采用Circuit Sparsity技術(shù),通過將99.9%的權(quán)重強(qiáng)制歸零,構(gòu)建出具備可解釋性的稀疏計(jì)算架構(gòu)。這種設(shè)計(jì)突破了傳統(tǒng)Transformer模型"黑箱"決策的局限,使AI的推理過程能夠像電路圖般被逐層拆解分析。
傳統(tǒng)大模型依賴稠密連接架構(gòu),神經(jīng)元間形成錯(cuò)綜復(fù)雜的網(wǎng)絡(luò),導(dǎo)致決策路徑難以追蹤。以GPT-2為基礎(chǔ)架構(gòu)的Circuit Sparsity模型則反其道而行之,在訓(xùn)練階段通過L0范數(shù)約束,將無效連接徹底切斷,僅保留千分之一的有效通路。這種原生稀疏設(shè)計(jì)使信息傳遞路徑高度固定化,每個(gè)任務(wù)都能形成獨(dú)立的最小功能電路。
實(shí)驗(yàn)數(shù)據(jù)顯示,在預(yù)訓(xùn)練損失相當(dāng)?shù)臈l件下,稀疏模型的任務(wù)專屬電路規(guī)模僅為稠密模型的1/16。以Python引號(hào)閉合任務(wù)為例,其核心電路僅需2個(gè)MLP神經(jīng)元和1個(gè)注意力頭,包含引號(hào)檢測器、類型分類器等模塊,各組件功能高度專一化。這種"模塊化"設(shè)計(jì)確保了每個(gè)節(jié)點(diǎn)的必要性——移除任意組件都會(huì)導(dǎo)致任務(wù)失敗。
該技術(shù)對當(dāng)前主流的混合專家模型(MoE)構(gòu)成直接挑戰(zhàn)。MoE通過門控網(wǎng)絡(luò)將模型拆分為多個(gè)專家子網(wǎng)絡(luò),依賴路由器分配任務(wù)。但這種近似稀疏的設(shè)計(jì)存在顯著缺陷:專家間特征流形割裂導(dǎo)致知識(shí)冗余,功能邊界模糊使得協(xié)同機(jī)制復(fù)雜,需依賴負(fù)載均衡函數(shù)維持穩(wěn)定。相比之下,Circuit Sparsity通過超高維度特征投射與嚴(yán)格節(jié)點(diǎn)激活限制,從根源上解決了概念分散問題,無需依賴路由器即可避免信息干擾。
然而這種創(chuàng)新架構(gòu)面臨嚴(yán)峻的算力挑戰(zhàn)。其訓(xùn)練與推理計(jì)算量較稠密模型高出2-3個(gè)數(shù)量級(jí),當(dāng)前性能尚無法比肩頂尖大模型。相比之下,MoE架構(gòu)在算力效率與性能平衡方面已形成成熟方案,短期內(nèi)仍將是工業(yè)界主流選擇。研究人員正探索兩種優(yōu)化路徑:一是從現(xiàn)有稠密模型中提取稀疏電路以降低成本,二是改進(jìn)訓(xùn)練機(jī)制以提升原生稀疏模型的效率。
該技術(shù)開源后引發(fā)學(xué)界熱議。支持者認(rèn)為其通過物理可解釋性重構(gòu)了AI基礎(chǔ)架構(gòu),為模型審計(jì)提供了新范式;批評(píng)者則指出,當(dāng)前實(shí)現(xiàn)方式在復(fù)雜任務(wù)處理上仍顯乏力。技術(shù)文檔顯示,研究團(tuán)隊(duì)正嘗試將技術(shù)擴(kuò)展至更大規(guī)模模型,重點(diǎn)攻關(guān)多步推理電路的構(gòu)建方法。相關(guān)代碼與論文已在OpenAI官方平臺(tái)公開,學(xué)術(shù)界正圍繞其可擴(kuò)展性展開激烈討論。











