核心問題:泛化差距
學習的真正目標不是在訓練集上表現好,而是在未見資料上表現好。形式上,我們關心期望風險 $R(\theta)$ 與經驗風險 $\hat{R}(\theta)$ 的差距——泛化差距(generalization gap):
$$ \text{gap}=R(\theta)-\hat{R}(\theta) $$
訓練只能壓低 $\hat{R}$;真正想壓低的是 $R$。三份切分(訓練/驗證/測試)正是為了誠實估計這個差距:驗證集用來選超參數,測試集只在最後評估一次,否則就是「偷看考卷」,估計會樂觀偏誤。
偏差–變異分解
以平方損失為例,期望測試誤差可分解為三項:
$$ \mathbb{E}\big[(y-\hat{f}(x))^2\big]=\underbrace{(\,\mathbb{E}[\hat f]-f\,)^2}_{\text{偏差}^2}+\underbrace{\mathrm{Var}(\hat f)}_{\text{變異}}+\underbrace{\sigma^2}_{\text{不可約雜訊}} $$
- 欠擬合=高偏差:模型太簡單,連訓練資料的結構都抓不住。
- 過擬合=高變異:模型把訓練樣本的雜訊也記住,對資料的隨機擾動過度敏感。
古典觀點認為兩者需權衡:模型複雜度上升,偏差降、變異升,測試誤差呈 U 形。
為什麼複雜模型能泛化:複雜度界與一致收斂
統計學習理論給出泛化差距的上界。以 VC 維 $d_{\mathrm{VC}}$ 為例,存在形如
$$ R(\theta)\le \hat{R}(\theta)+\mathcal{O}\!\left(\sqrt{\frac{d_{\mathrm{VC}}\log n}{n}}\right) $$
的界:樣本數 $n$ 越大、假設空間複雜度越低,泛化差距越小。Rademacher 複雜度給出更緊的、與資料相關的界。這解釋了「更多資料」與「限制複雜度」為何有效。
正則化:把先驗注入最佳化
正則化在目標函數加懲罰項以抑制變異:
$$ \min_\theta\;\hat{R}(\theta)+\lambda\,\Omega(\theta) $$
- L2(權重衰減) $\Omega=\lVert\theta\rVert_2^2$:從貝氏觀點等價於對 $\theta$ 施加高斯先驗的 MAP 估計。
- L1 $\Omega=\lVert\theta\rVert_1$:對應拉普拉斯先驗,誘導稀疏解。
- Dropout:訓練時以機率 $p$ 隨機關閉神經元,可視為對指數多個子網路做隱式集成,降低共適應。
- Early stopping:驗證誤差回升即停,限制了參數實際走過的範圍,效果近似 L2。
現代弔詭:雙重下降
深度學習打破了古典 U 形直覺。Belkin 等人觀察到雙重下降(double descent):當模型複雜度跨過「剛好內插訓練資料」的插值門檻後,測試誤差再次下降,過參數化的巨大網路反而泛化更好。這顯示古典偏差–變異權衡並非全貌,過參數化區的泛化機制(隱式正則化、平坦極小值)仍是活躍的研究前沿。
對「使用者」的意義
即使你不訓練模型,這套觀念也是判斷 AI 可信度的工具:一個在展示資料上完美、換到你的真實分布就失準的系統,多半是過擬合或評估協定有缺陷(如測試集洩漏、分布偏移)。看到「準確率 99%」,要先問:在什麼分布上、測試集如何切、有沒有資料洩漏。
深入探討(研究所視角)
從 PAC 學習到一致收斂界
過擬合的古典理論奠基於統計學習理論。給定假設空間 $\mathcal{H}$,泛化誤差 $L(h)$ 與經驗誤差 $\hat{L}(h)$ 之差受 $\mathcal{H}$ 複雜度約束。以 VC 維 $d_{\mathrm{VC}}$ 為例,對二元分類有高機率界
$$L(h) \le \hat{L}(h) + O\!\left(\sqrt{\frac{d_{\mathrm{VC}}\big(\log(n/d_{\mathrm{VC}})+1\big) + \log(1/\delta)}{n}}\right).$$
更精細的 Rademacher 複雜度 $\mathfrak{R}_n(\mathcal{H})$ 提供與資料分布相關的界 $L(h) \le \hat{L}(h) + 2\mathfrak{R}_n(\mathcal{H}) + O(\sqrt{\log(1/\delta)/n})$。這類一致收斂界的核心訊息是:模型容量越大、樣本越少,訓練誤差與測試誤差之間的「鴻溝」越可能擴大——這正是過擬合的理論刻畫。
雙重下降與良性過擬合
然而古典 bias-variance 取捨無法解釋深度網路的經驗現象。Belkin 等人提出的「雙重下降(double descent)」指出,當模型參數量越過插值閾值(interpolation threshold,$p \approx n$)後繼續增大,測試誤差會在第二次下降。此時模型即使完美擬合訓練資料(含雜訊),仍可泛化良好,稱為「良性過擬合(benign overfitting)」。其理論分析多建立在過參數化線性迴歸與隨機特徵模型上:最小範數內插解 $\hat{\beta} = X^{\top}(XX^{\top})^{-1}y$ 的超額風險取決於協方差譜的衰減速度,當特徵譜呈現足夠多的「低能量」尾部維度時,雜訊被分散吸收而不傷害預測。這顯示「能完美記住訓練集」與「泛化失敗」並非等價——隱式正則化(implicit regularization)扮演關鍵角色。
隱式正則化、平坦極小與優化幾何
為何 SGD 訓練的過參數網路傾向選出泛化好的解?一條主線是優化動力學的隱式偏好:梯度下降在可分資料上對 logistic 損失收斂到最大間隔(max-margin)方向,等價於隱式 $\ell_2$ 正則化。另一條主線連結損失地景的幾何——「平坦極小(flat minima)」假說主張平坦區域對參數擾動更穩健,因而泛化更佳;Sharpness-Aware Minimization(SAM)即直接以 $\min_{\theta}\max_{\|\epsilon\|\le\rho} L(\theta+\epsilon)$ 的極小化目標逼近平坦解。PAC-Bayes 框架為此提供了非空泛化界:對後驗 $Q$ 與先驗 $P$,
$$\mathbb{E}_{h\sim Q}[L(h)] \le \mathbb{E}_{h\sim Q}[\hat{L}(h)] + \sqrt{\frac{\mathrm{KL}(Q\|P) + \log(n/\delta)}{2(n-1)}},$$
將擾動穩健性與泛化嚴格連結,是少數能對真實深度網路給出有意義數值界的工具。
開放問題與跨主題連結
值得注意的是,過擬合的理解與其他主題深度交織:資料記憶與隱私(成員推斷攻擊正利用過擬合留下的痕跡)、分布偏移下的穩健泛化、以及大型語言模型的「資料污染」——當測試基準洩漏進預訓練語料時,所謂「考前很強」實為記憶而非能力。如何在過參數化體制下建立緊緻、與架構相關、且可計算的泛化界,仍是統計學習理論的核心開放問題。