架構即歸納偏置
全連接網路把輸入當成無結構的向量,忽略了「影像有空間結構、序列有時間順序」這些先驗。CNN 與 RNN 的價值,正是把這些結構假設編碼進連接方式——它們是兩種不同的歸納偏置。
CNN:以卷積編碼平移不變與局部性
卷積層用一個小卷積核 $K$ 在輸入上滑動,計算離散卷積(實作上是互相關):
$$ (I*K)_{i,j}=\sum_{m}\sum_{n} I_{i+m,\,j+n}\,K_{m,n} $$
這帶來兩個關鍵性質:
- 參數共享:同一組核掃過全圖,參數量與輸入尺寸解耦,遠少於全連接層。
- 平移等變(translation equivariance):物件平移,特徵響應隨之平移——契合「貓在左上或右下都是貓」的先驗。
搭配池化(pooling) 提供局部平移不變與降採樣,CNN 逐層組合出邊緣 → 部件 → 物件的階層表徵。1998 年 LeNet、2012 年 AlexNet 引爆革命,ResNet 以殘差連接 $a^{(l+1)}=a^{(l)}+\mathcal{F}(a^{(l)})$ 解決極深網路的退化,使數百層可訓練。應用遍及醫療影像、自駕視覺、瑕疵檢測。
RNN:以循環編碼時間依賴
循環網路維護一個隨時間演進的隱藏狀態 $h_t$:
$$ h_t=\sigma\big(W_{hh}h_{t-1}+W_{xh}x_t+b\big),\qquad y_t=W_{hy}h_t $$
它以共享權重沿時間展開,訓練用時間反向傳播(BPTT)。但展開後等同一個極深網路,$h_{t-1}\to h_t$ 的反覆相乘導致長程梯度消失/爆炸,難以記住遠處資訊。
LSTM:用閘門守住長程記憶
LSTM 引入記憶單元 $c_t$ 與三個閘門(遺忘、輸入、輸出),以加法式更新讓梯度能沿時間穩定流動:
$$ f_t=\sigma(W_f[h_{t-1},x_t]),\quad c_t=f_t\odot c_{t-1}+i_t\odot\tilde{c}_t $$
遺忘閘 $f_t$ 控制保留多少舊記憶,使 LSTM/GRU 能捕捉較長依賴,曾是機器翻譯、語音辨識的主力。
為何被 Transformer 取代
RNN 有兩個根本限制:必須逐步循序計算($h_t$ 依賴 $h_{t-1}$)→ 無法在序列維度平行化、訓練慢;以及路徑長度為 $\mathcal{O}(n)$ → 長程依賴的訊號要走很多步、易衰減。2017 年的 Transformer 以自注意力把任兩位置的路徑長度降為 $\mathcal{O}(1)$ 且完全可平行,同時取代了 CNN/RNN 在許多任務上的地位(影像也有 Vision Transformer)。下一篇深入它的數學。
深入探討(研究所視角)
卷積的群論結構與表徵不變性
CNN 的權值共享並非僅是工程上的參數節省,而是「平移等變性(translation equivariance)」的直接體現:令 $T_g$ 為群 $G$ 中元素 $g$ 的作用,卷積層 $\Phi$ 滿足 $\Phi(T_g x) = T_g \Phi(x)$。這把 CNN 納入 Group Equivariant CNN(G-CNN) 與更廣的 Geometric Deep Learning 框架:當我們希望對旋轉、鏡射或其他對稱群也保持等變時,可將卷積推廣為在群上的積分
$$ (f \star \psi)(g) = \int_{G} f(h)\,\psi(g^{-1} h)\, d\mu(h), $$
其中 $\mu$ 為 Haar 測度。最大池化提供的則是區域性的近似不變性(invariance)而非等變性,兩者的取捨直接決定網路對形變的泛化行為。Scattering transform(Mallat)進一步給出可證明的形變穩定性界,說明深層級聯小波在 Lipschitz 形變下的能量穩定性,為 CNN 何以對微小扭曲魯棒提供了解析性解釋。
RNN 的梯度動力學與長程依賴
序列模型的核心難題是 BPTT 中雅可比連乘 $\prod_{t} \frac{\partial h_{t+1}}{\partial h_t}$ 的譜行為。設循環雅可比的最大奇異值為 $\sigma$,則梯度範數約以 $\sigma^{\tau}$ 隨時間跨距 $\tau$ 變化:$\sigma<1$ 導致梯度消失、$\sigma>1$ 導致梯度爆炸(Bengio 等人的經典分析)。LSTM 與 GRU 透過加性的 cell 更新使梯度沿 constant error carousel 近似為恆等映射,緩解消失問題。更嚴格的處方是限制循環權重於正交/酉群:Unitary/Orthogonal RNN 令 $\|W\|_2 = 1$,使雅可比譜半徑維持在臨界線 $\sigma\approx 1$,此即「邊緣穩定性(edge of stability)」的設計哲學。另一支線索是把離散遞迴視為連續動力系統的離散化,Neural ODE 與近期的 狀態空間模型(S4、Mamba) 以線性時不變系統 $\dot{h}(t)=Ah(t)+Bx(t)$ 搭配 HiPPO 初始化的 $A$ 矩陣,在保留 RNN 線性遞迴推論成本的同時,達到接近 Transformer 的長程建模能力。
統一視角與開放問題
CNN 與 RNN 可在同一語言下被理解為對稱性先驗的不同選擇:CNN 假設空間平移對稱,RNN 假設時間平移對稱(權重跨時間步共享),兩者皆是對輸入域上某群作用的等變約束。值得注意的是,膨脹卷積(dilated/causal convolution,如 WaveNet、TCN)可在序列上達到指數成長的感受野,使「卷積」直接與「序列建模」競爭,模糊了兩類架構的界線。理論上仍開放的問題包括:CNN 的有效感受野遠小於理論感受野(呈近似高斯分布)對深層表徵的影響、循環模型在何種條件下可證明地學得有限狀態自動機所對應的規則語言,以及線性遞迴 SSM 與 softmax 注意力在表達力上的精確分離界。這些問題把 CNN/RNN 與核方法、隨機特徵與序列複雜度理論連結起來,構成當前架構研究的活躍前沿。