前饋網路:可微分的函數複合
一個 $L$ 層前饋網路把輸入逐層轉換。記第 $l$ 層的前活化 $z^{(l)}$ 與活化 $a^{(l)}$:
$$ z^{(l)}=W^{(l)}a^{(l-1)}+b^{(l)},\qquad a^{(l)}=\sigma\big(z^{(l)}\big),\qquad a^{(0)}=x $$
$\sigma$ 是逐元素的非線性激活(如 ReLU $\sigma(z)=\max(0,z)$)。非線性是關鍵——若所有層都線性,複合仍是線性,深度毫無意義。通用逼近定理保證:含一層足夠寬隱藏層的網路能逼近任意連續函數;但深度讓某些函數可指數級更省參數地表示,這是「深」的理論動機。
訓練即最佳化:損失對參數的梯度
訓練要最小化損失 $\mathcal{L}(\theta)$($\theta=\{W^{(l)},b^{(l)}\}$)。梯度下降需要 $\partial\mathcal{L}/\partial W^{(l)}$。網路有上億參數,逐一數值微分不可行——反向傳播正是高效計算全部偏導的演算法。
反向傳播:鏈式法則的動態規劃
定義第 $l$ 層的誤差訊號 $\delta^{(l)}=\partial\mathcal{L}/\partial z^{(l)}$。由鏈式法則,輸出層為
$$ \delta^{(L)}=\nabla_{a^{(L)}}\mathcal{L}\;\odot\;\sigma'\big(z^{(L)}\big) $$
誤差逐層往回傳遞($\odot$ 為逐元素乘):
$$ \delta^{(l)}=\Big(\big(W^{(l+1)}\big)^\top\delta^{(l+1)}\Big)\odot\sigma'\big(z^{(l)}\big) $$
得到 $\delta^{(l)}$ 後,參數梯度為
$$ \frac{\partial\mathcal{L}}{\partial W^{(l)}}=\delta^{(l)}\big(a^{(l-1)}\big)^\top,\qquad \frac{\partial\mathcal{L}}{\partial b^{(l)}}=\delta^{(l)} $$
反向傳播本質是鏈式法則 + 動態規劃:把共用的中間導數快取重用,使計算梯度的成本與一次前向傳播同階($\mathcal{O}$ 倍數常數),這正是現代自動微分框架(PyTorch、JAX)的核心。
為什麼「深」會難訓練
誤差遞迴式裡反覆乘上 $W$ 與 $\sigma'$,當這些因子持續小於 1 或大於 1,$\delta^{(l)}$ 會指數衰減或爆炸——即梯度消失/爆炸。三項工程突破讓深層網路可訓練:
- ReLU 在正區間導數恆為 1,緩解消失;
- 合適初始化(He/Xavier)讓各層活化變異數穩定;
- 批次正規化/殘差連接 改善梯度流與最佳化地形。
自動學特徵:深度學習的核心
我們不需告訴網路「貓有鬍鬚」。給足標註資料,隱藏層會自行長出階層式特徵偵測器:淺層邊緣與紋理、中層部件、深層物件。這種端到端、資料驅動的表徵學習,取代了傳統手工特徵工程,是深度學習最關鍵的突破——也解釋了它為何吃資料、吃算力:上億參數 × 海量樣本 × 數百萬次前向/反向傳播。後續的 CNN、RNN、Transformer,都是在這個骨架上,為不同資料結構設計不同的連接方式。
深入探討(研究所視角)
通用近似與深度的優勢
單隱藏層前饋網路的通用近似定理(Cybenko、Hornik)指出:對任意連續函數 $f\in C(K)$($K\subset\mathbb{R}^n$ 緊緻)與任意 $\varepsilon>0$,存在有限寬度網路 $g$ 使 $\sup_{x\in K}\lvert f(x)-g(x)\rvert<\varepsilon$,只要激活函數非多項式。然而此定理僅保證存在性,未約束所需寬度。深度的真正威力在於表達效率:存在函數族(如 $\sin$ 的高頻複合、區域數隨層數指數增長的分段線性映射),淺層網路須以 $\Omega(\exp(d))$ 個單元逼近,深層卻只需 $O(\mathrm{poly}(d))$ 個(depth separation 結果,如 Telgarsky)。這說明深度不只是參數的重排,而是改變了假設空間的幾何複雜度。
反向傳播的本質:reverse-mode 自動微分
反向傳播並非獨立演算法,而是 reverse-mode automatic differentiation 在計算圖上的特例。對複合 $L=\ell\circ f_K\circ\cdots\circ f_1$,由鏈式法則得各層 Jacobian 連乘 $$\frac{\partial L}{\partial \theta_k}=\frac{\partial \ell}{\partial a_K}\left(\prod_{j=k+1}^{K}\frac{\partial a_j}{\partial a_{j-1}}\right)\frac{\partial a_k}{\partial \theta_k}.$$ 反向模式的優勢在於:當輸出維度遠小於參數量(純量損失對 $\mathbb{R}^P$ 求導)時,計算成本僅為前向傳播的常數倍(Baur–Strassen 定理保證梯度與函數值同階)。但這也暴露了梯度消失/爆炸的根源——Jacobian 連乘的譜半徑若偏離 $1$,誤差訊號會指數衰減或發散,這正是 ResNet 殘差連結(恆等捷徑使 Jacobian 趨近 $I$)與 LSTM 閘控機制的理論動機。
優化地景與訓練動力學
損失函數 $L(\theta)$ 高度非凸,但實證上 SGD 仍能找到良好解,這催生了多項理論。Neural Tangent Kernel(Jacot 等)證明:在無限寬度極限下,梯度下降的訓練動力學等價於一個固定核 $\Theta(x,x')$ 下的核迴歸,網路退化為線性化模型且損失呈現凸性行為。另一方向是 mean-field 觀點,將參數視為機率測度並以 Wasserstein 梯度流刻畫其演化。對地景結構,研究顯示過參數化下的臨界點多為鞍點而非劣質局部極小,且許多全域極小由連通的低損失流形相連(mode connectivity)。
開放問題與理論連結
核心未解問題是泛化之謎:網路參數量遠超樣本數仍不過擬合,傳統 VC 維與一致收斂界過於鬆弛,無法解釋 double descent 與 implicit regularization(SGD 隱性偏好小範數、平坦極小解)。這些議題與統計學習理論、資訊瓶頸(information bottleneck)、以及隨機微分方程的逃逸時間分析緊密相連,仍是當前深度學習理論的活躍前沿。