神經網路與反向傳播：深度學習的引擎

前饋網路：可微分的函數複合

一個 $L$ 層前饋網路把輸入逐層轉換。記第 $l$ 層的前活化 $z^{(l)}$ 與活化 $a^{(l)}$：

$$ z^{(l)}=W^{(l)}a^{(l-1)}+b^{(l)},\qquad a^{(l)}=\sigma\big(z^{(l)}\big),\qquad a^{(0)}=x $$

$\sigma$ 是逐元素的非線性激活（如 ReLU $\sigma(z)=\max(0,z)$）。非線性是關鍵——若所有層都線性，複合仍是線性，深度毫無意義。通用逼近定理保證：含一層足夠寬隱藏層的網路能逼近任意連續函數；但深度讓某些函數可指數級更省參數地表示，這是「深」的理論動機。

訓練即最佳化：損失對參數的梯度

訓練要最小化損失 $\mathcal{L}(\theta)$（$\theta=\{W^{(l)},b^{(l)}\}$）。梯度下降需要 $\partial\mathcal{L}/\partial W^{(l)}$。網路有上億參數，逐一數值微分不可行——反向傳播正是高效計算全部偏導的演算法。

反向傳播：鏈式法則的動態規劃

定義第 $l$ 層的誤差訊號 $\delta^{(l)}=\partial\mathcal{L}/\partial z^{(l)}$。由鏈式法則，輸出層為

$$ \delta^{(L)}=\nabla_{a^{(L)}}\mathcal{L}\;\odot\;\sigma'\big(z^{(L)}\big) $$

誤差逐層往回傳遞（$\odot$ 為逐元素乘）：

$$ \delta^{(l)}=\Big(\big(W^{(l+1)}\big)^\top\delta^{(l+1)}\Big)\odot\sigma'\big(z^{(l)}\big) $$

得到 $\delta^{(l)}$ 後，參數梯度為

$$ \frac{\partial\mathcal{L}}{\partial W^{(l)}}=\delta^{(l)}\big(a^{(l-1)}\big)^\top,\qquad \frac{\partial\mathcal{L}}{\partial b^{(l)}}=\delta^{(l)} $$

反向傳播本質是鏈式法則 + 動態規劃：把共用的中間導數快取重用，使計算梯度的成本與一次前向傳播同階（$\mathcal{O}$ 倍數常數），這正是現代自動微分框架（PyTorch、JAX）的核心。

為什麼「深」會難訓練

誤差遞迴式裡反覆乘上 $W$ 與 $\sigma'$，當這些因子持續小於 1 或大於 1，$\delta^{(l)}$ 會指數衰減或爆炸——即梯度消失／爆炸。三項工程突破讓深層網路可訓練：

ReLU 在正區間導數恆為 1，緩解消失；
合適初始化（He／Xavier）讓各層活化變異數穩定；
批次正規化／殘差連接 改善梯度流與最佳化地形。

自動學特徵：深度學習的核心

我們不需告訴網路「貓有鬍鬚」。給足標註資料，隱藏層會自行長出階層式特徵偵測器：淺層邊緣與紋理、中層部件、深層物件。這種端到端、資料驅動的表徵學習，取代了傳統手工特徵工程，是深度學習最關鍵的突破——也解釋了它為何吃資料、吃算力：上億參數 × 海量樣本 × 數百萬次前向／反向傳播。後續的 CNN、RNN、Transformer，都是在這個骨架上，為不同資料結構設計不同的連接方式。

深入探討（研究所視角）

通用近似與深度的優勢

單隱藏層前饋網路的通用近似定理（Cybenko、Hornik）指出：對任意連續函數 $f\in C(K)$（$K\subset\mathbb{R}^n$ 緊緻）與任意 $\varepsilon>0$，存在有限寬度網路 $g$ 使 $\sup_{x\in K}\lvert f(x)-g(x)\rvert<\varepsilon$，只要激活函數非多項式。然而此定理僅保證存在性，未約束所需寬度。深度的真正威力在於表達效率：存在函數族（如 $\sin$ 的高頻複合、區域數隨層數指數增長的分段線性映射），淺層網路須以 $\Omega(\exp(d))$ 個單元逼近，深層卻只需 $O(\mathrm{poly}(d))$ 個（depth separation 結果，如 Telgarsky）。這說明深度不只是參數的重排，而是改變了假設空間的幾何複雜度。

反向傳播的本質：reverse-mode 自動微分

反向傳播並非獨立演算法，而是 reverse-mode automatic differentiation 在計算圖上的特例。對複合 $L=\ell\circ f_K\circ\cdots\circ f_1$，由鏈式法則得各層 Jacobian 連乘 $$\frac{\partial L}{\partial \theta_k}=\frac{\partial \ell}{\partial a_K}\left(\prod_{j=k+1}^{K}\frac{\partial a_j}{\partial a_{j-1}}\right)\frac{\partial a_k}{\partial \theta_k}.$$ 反向模式的優勢在於：當輸出維度遠小於參數量（純量損失對 $\mathbb{R}^P$ 求導）時，計算成本僅為前向傳播的常數倍（Baur–Strassen 定理保證梯度與函數值同階）。但這也暴露了梯度消失／爆炸的根源——Jacobian 連乘的譜半徑若偏離 $1$，誤差訊號會指數衰減或發散，這正是 ResNet 殘差連結（恆等捷徑使 Jacobian 趨近 $I$）與 LSTM 閘控機制的理論動機。

優化地景與訓練動力學

損失函數 $L(\theta)$ 高度非凸，但實證上 SGD 仍能找到良好解，這催生了多項理論。Neural Tangent Kernel（Jacot 等）證明：在無限寬度極限下，梯度下降的訓練動力學等價於一個固定核 $\Theta(x,x')$ 下的核迴歸，網路退化為線性化模型且損失呈現凸性行為。另一方向是 mean-field 觀點，將參數視為機率測度並以 Wasserstein 梯度流刻畫其演化。對地景結構，研究顯示過參數化下的臨界點多為鞍點而非劣質局部極小，且許多全域極小由連通的低損失流形相連（mode connectivity）。

開放問題與理論連結

核心未解問題是泛化之謎：網路參數量遠超樣本數仍不過擬合，傳統 VC 維與一致收斂界過於鬆弛，無法解釋 double descent 與 implicit regularization（SGD 隱性偏好小範數、平坦極小解）。這些議題與統計學習理論、資訊瓶頸（information bottleneck）、以及隨機微分方程的逃逸時間分析緊密相連，仍是當前深度學習理論的活躍前沿。

--

0

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings