訓練、驗證與過擬合：模型為何會「考前很強、考時很弱」

核心問題：泛化差距

學習的真正目標不是在訓練集上表現好，而是在未見資料上表現好。形式上，我們關心期望風險 $R(\theta)$ 與經驗風險 $\hat{R}(\theta)$ 的差距——泛化差距（generalization gap）：

$$ \text{gap}=R(\theta)-\hat{R}(\theta) $$

訓練只能壓低 $\hat{R}$；真正想壓低的是 $R$。三份切分（訓練／驗證／測試）正是為了誠實估計這個差距：驗證集用來選超參數，測試集只在最後評估一次，否則就是「偷看考卷」，估計會樂觀偏誤。

偏差–變異分解

以平方損失為例，期望測試誤差可分解為三項：

$$ \mathbb{E}\big[(y-\hat{f}(x))^2\big]=\underbrace{(\,\mathbb{E}[\hat f]-f\,)^2}_{\text{偏差}^2}+\underbrace{\mathrm{Var}(\hat f)}_{\text{變異}}+\underbrace{\sigma^2}_{\text{不可約雜訊}} $$

欠擬合＝高偏差：模型太簡單，連訓練資料的結構都抓不住。
過擬合＝高變異：模型把訓練樣本的雜訊也記住，對資料的隨機擾動過度敏感。

古典觀點認為兩者需權衡：模型複雜度上升，偏差降、變異升，測試誤差呈 U 形。

為什麼複雜模型能泛化：複雜度界與一致收斂

統計學習理論給出泛化差距的上界。以 VC 維 $d_{\mathrm{VC}}$ 為例，存在形如

$$ R(\theta)\le \hat{R}(\theta)+\mathcal{O}\!\left(\sqrt{\frac{d_{\mathrm{VC}}\log n}{n}}\right) $$

的界：樣本數 $n$ 越大、假設空間複雜度越低，泛化差距越小。Rademacher 複雜度給出更緊的、與資料相關的界。這解釋了「更多資料」與「限制複雜度」為何有效。

正則化：把先驗注入最佳化

正則化在目標函數加懲罰項以抑制變異：

$$ \min_\theta\;\hat{R}(\theta)+\lambda\,\Omega(\theta) $$

L2（權重衰減） $\Omega=\lVert\theta\rVert_2^2$：從貝氏觀點等價於對 $\theta$ 施加高斯先驗的 MAP 估計。
L1 $\Omega=\lVert\theta\rVert_1$：對應拉普拉斯先驗，誘導稀疏解。
Dropout：訓練時以機率 $p$ 隨機關閉神經元，可視為對指數多個子網路做隱式集成，降低共適應。
Early stopping：驗證誤差回升即停，限制了參數實際走過的範圍，效果近似 L2。

現代弔詭：雙重下降

深度學習打破了古典 U 形直覺。Belkin 等人觀察到雙重下降（double descent）：當模型複雜度跨過「剛好內插訓練資料」的插值門檻後，測試誤差再次下降，過參數化的巨大網路反而泛化更好。這顯示古典偏差–變異權衡並非全貌，過參數化區的泛化機制（隱式正則化、平坦極小值）仍是活躍的研究前沿。

對「使用者」的意義

即使你不訓練模型，這套觀念也是判斷 AI 可信度的工具：一個在展示資料上完美、換到你的真實分布就失準的系統，多半是過擬合或評估協定有缺陷（如測試集洩漏、分布偏移）。看到「準確率 99%」，要先問：在什麼分布上、測試集如何切、有沒有資料洩漏。

深入探討（研究所視角）

從 PAC 學習到一致收斂界

過擬合的古典理論奠基於統計學習理論。給定假設空間 $\mathcal{H}$，泛化誤差 $L(h)$ 與經驗誤差 $\hat{L}(h)$ 之差受 $\mathcal{H}$ 複雜度約束。以 VC 維 $d_{\mathrm{VC}}$ 為例，對二元分類有高機率界

$$L(h) \le \hat{L}(h) + O\!\left(\sqrt{\frac{d_{\mathrm{VC}}\big(\log(n/d_{\mathrm{VC}})+1\big) + \log(1/\delta)}{n}}\right).$$

更精細的 Rademacher 複雜度 $\mathfrak{R}_n(\mathcal{H})$ 提供與資料分布相關的界 $L(h) \le \hat{L}(h) + 2\mathfrak{R}_n(\mathcal{H}) + O(\sqrt{\log(1/\delta)/n})$。這類一致收斂界的核心訊息是：模型容量越大、樣本越少，訓練誤差與測試誤差之間的「鴻溝」越可能擴大——這正是過擬合的理論刻畫。

雙重下降與良性過擬合

然而古典 bias-variance 取捨無法解釋深度網路的經驗現象。Belkin 等人提出的「雙重下降（double descent）」指出，當模型參數量越過插值閾值（interpolation threshold，$p \approx n$）後繼續增大，測試誤差會在第二次下降。此時模型即使完美擬合訓練資料（含雜訊），仍可泛化良好，稱為「良性過擬合（benign overfitting）」。其理論分析多建立在過參數化線性迴歸與隨機特徵模型上：最小範數內插解 $\hat{\beta} = X^{\top}(XX^{\top})^{-1}y$ 的超額風險取決於協方差譜的衰減速度，當特徵譜呈現足夠多的「低能量」尾部維度時，雜訊被分散吸收而不傷害預測。這顯示「能完美記住訓練集」與「泛化失敗」並非等價——隱式正則化（implicit regularization）扮演關鍵角色。

隱式正則化、平坦極小與優化幾何

為何 SGD 訓練的過參數網路傾向選出泛化好的解？一條主線是優化動力學的隱式偏好：梯度下降在可分資料上對 logistic 損失收斂到最大間隔（max-margin）方向，等價於隱式 $\ell_2$ 正則化。另一條主線連結損失地景的幾何——「平坦極小（flat minima）」假說主張平坦區域對參數擾動更穩健，因而泛化更佳；Sharpness-Aware Minimization（SAM）即直接以 $\min_{\theta}\max_{\|\epsilon\|\le\rho} L(\theta+\epsilon)$ 的極小化目標逼近平坦解。PAC-Bayes 框架為此提供了非空泛化界：對後驗 $Q$ 與先驗 $P$，

$$\mathbb{E}_{h\sim Q}[L(h)] \le \mathbb{E}_{h\sim Q}[\hat{L}(h)] + \sqrt{\frac{\mathrm{KL}(Q\|P) + \log(n/\delta)}{2(n-1)}},$$

將擾動穩健性與泛化嚴格連結，是少數能對真實深度網路給出有意義數值界的工具。

開放問題與跨主題連結

值得注意的是，過擬合的理解與其他主題深度交織：資料記憶與隱私（成員推斷攻擊正利用過擬合留下的痕跡）、分布偏移下的穩健泛化、以及大型語言模型的「資料污染」——當測試基準洩漏進預訓練語料時，所謂「考前很強」實為記憶而非能力。如何在過參數化體制下建立緊緻、與架構相關、且可計算的泛化界，仍是統計學習理論的核心開放問題。

--

0

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings