深度學習領域關于殘差學習起源的爭議再度引發關注。此次發聲的是LSTM(長短期記憶網絡)聯合發明人Jürgen Schmidhuber,他公開指出何愷明團隊提出的殘差網絡(ResNet)并非完全創新,其核心思想可追溯至1991年其學生Sepp Hochreiter的博士研究。
據Jürgen介紹,Hochreiter在攻讀博士學位期間首次系統分析了循環神經網絡(RNN)的梯度消失問題,并提出通過"循環殘差連接"解決這一難題。該方法采用恒等激活函數實現神經單元自連接,權重嚴格設定為1.0,使每個時間步的輸入僅疊加到先前狀態。這種設計確保了誤差信號在反向傳播過程中保持恒定,有效避免了梯度消失或爆炸。
技術細節顯示,權重精確度對效果影響顯著。當權重為0.99時,誤差信號在100個時間步后衰減至37%;若權重降至0.9,則僅剩0.0027%。這種嚴格的權重設定為后續深度學習殘差思想奠定了理論基礎。1997年,Jürgen與Hochreiter在此基礎上提出LSTM,其核心單元"恒定誤差輪盤"(CECs)通過固定權重1.0的循環殘差連接,實現了誤差在數百甚至數千時間步中的穩定傳播。
該理論的發展呈現清晰脈絡:1999年vanilla LSTM引入初始值為1.0的遺忘門,形成可控殘差連接;2005年通過時間反向傳播(BPTT)算法將LSTM展開為深度前饋網絡,使每個輸入序列時間步對應虛擬層;2015年Highway網絡首次將LSTM的門控殘差思想引入前饋網絡,通過g(x)x+t(x)h(x)的結構實現自適應殘差流調整;同年12月ResNet在ImageNet競賽中取得突破性成功,其殘差連接設計被Jürgen認為與展開的LSTM及初始化的Highway網絡存在本質相似性。
這場爭論背后,折射出深度學習領域長期存在的學術歸屬爭議。2015年ResNet發布當年,深度學習三巨頭Bengio、Hinton、LeCun在《自然》雜志聯合發表綜述論文時,曾因大量引用自身成果而忽略Jürgen等人的貢獻引發爭議。2018年圖靈獎公布后,Jürgen曾撰寫200余條文獻引用的長文進行反駁。在GAN(生成對抗網絡)的原創性爭議中,由于提出者是Bengio的學生,雙方爭論更加激烈。
值得注意的是,這并非Jürgen首次對主流神經網絡提出起源質疑。2021年他曾公開表示,LSTM、ResNet、AlexNet、VGG Net、GAN及Transformer等重大突破均受到其實驗室成果啟發。例如他認為AlexNet和VGG Net采用了其團隊開發的DanNet架構,GAN源于1990年提出的"對抗好奇心"原則,Transformer變體則延伸自快速權重存儲系統。但除LSTM的歸屬得到普遍認可外,其他主張尚未獲得學術界廣泛支持,甚至衍生出"Schmidhuber is all you need"的調侃說法。
對于當前殘差學習起源的爭議,有學者指出從Hochreiter的早期研究到ResNet的實踐應用,體現了技術思想的漸進發展過程。盡管1991年的研究為后續突破提供了理論基礎,但ResNet在架構設計和工程實現上的創新同樣具有里程碑意義。這場爭論或許將推動學界更深入地審視技術演進的歷史脈絡。











