深度學習的「深度」究竟是來自網路層數,還是學習系統的嵌套層級? | 數位時代

深度學習的「深度」:網路層數 vs. 嵌套層級

深度學習的「深度」傳統上被認為來自於神經網路的層數。層數越深,模型能夠學習和表示的抽象特徵就越複雜。然而,一篇由 Google 研究人員提出的論文挑戰了這個觀點,認為深度學習的真正「深度」在於學習系統的嵌套層級,而非單純的網路層數堆疊。這表示模型內部存在多個以不同速度運作的學習系統,這些系統相互嵌套、協調,共同完成複雜的認知任務。

嵌套學習:模擬人腦的多層記憶系統

Nested Learning (嵌套學習) 的概念源於對人腦記憶系統的觀察。人腦的記憶鞏固是一個多階段過程,包括快速記錄新資訊的突觸鞏固和將記憶痕跡轉移到大腦皮層的系統鞏固。這個過程涉及不同頻率的腦波協調,例如 Delta 波、Alpha 波和 Gamma 波。Google 的研究團隊受到啟發,提出將 AI 的類神經網路設計成一個多層級的學習系統,每個層級有自己的更新頻率,模擬大腦中的不同腦波。

嵌套結構與 AI 的持續學習

嵌套學習的核心思想是,在深度學習模型內部存在多個以不同速度運作的學習系統,這些系統不僅平行處理資訊,還存在嵌套關係。例如,在使用梯度下降法訓練類神經網路時,動量項(momentum)本身就是一個學習系統,它在學習如何壓縮和記憶梯度資訊。Transformer 模型中的注意力機制也可以被理解為一個學習系統,它在每個 token 都更新一個記憶矩陣。這種嵌套結構才是深度學習真正的「深度」所在,使得模型能夠在推理時持續優化自己,而不會忘記預訓練的知識。


This is a simplified version of the page. Some interactive features are only available in the full version.
本頁為精簡版,部分互動功能僅限完整版使用。
👉 View Full Version | 前往完整版內容