「訓練」這句話的精確意義
口語說「訓練一個模型」,背後是一個明確的數學程序:在參數空間中,用梯度資訊搜尋一組使損失最小的參數。把三個關鍵字精確化:
- 模型:一個參數化函數 $f_\theta:\mathcal{X}\to\mathcal{Y}$,$\theta\in\mathbb{R}^P$ 是可訓練參數(現代 LLM 的 $P$ 達數千億)。
- 資料:來自分布 $\mathcal{D}$ 的樣本 $\{(x_i,y_i)\}_{i=1}^n$。
- 訓練:求解最佳化問題 $\displaystyle \theta^\*=\arg\min_\theta \hat{R}(\theta)$。
目標函數:經驗風險與損失
我們最小化經驗風險(平均損失):
$$ \hat{R}(\theta)=\frac{1}{n}\sum_{i=1}^{n}\ell\big(f_\theta(x_i),\,y_i\big) $$
損失 $\ell$ 的選擇取決於任務。兩個最常見:
- 迴歸——均方誤差 $\ell=\tfrac{1}{2}\lVert f_\theta(x)-y\rVert^2$。
- 分類/語言建模——交叉熵 $\ell=-\sum_{c} y_c\log \hat{y}_c$,其中 $\hat{y}=\mathrm{softmax}(f_\theta(x))$。語言模型即對「下一個 token」的類別做交叉熵。
交叉熵最小化等價於最大概似估計(MLE):讓模型賦予真實資料的對數機率最大。
梯度下降:往最陡的下坡走
參數更新用梯度下降。梯度 $\nabla_\theta \hat{R}$ 指向損失上升最快的方向,故往反方向走:
$$ \theta \leftarrow \theta-\eta\,\nabla_\theta \hat{R}(\theta) $$
$\eta$ 是學習率。但對 $n$ 上億的資料,每步都算全量梯度太貴,故用隨機梯度下降(SGD):每次只用一個小批次(mini-batch)$\mathcal{B}$ 估計梯度,
$$ \theta \leftarrow \theta-\eta\,\frac{1}{|\mathcal{B}|}\sum_{i\in\mathcal{B}}\nabla_\theta \ell\big(f_\theta(x_i),y_i\big) $$
小批次梯度是全量梯度的無偏估計,其雜訊不僅可接受,甚至有助逃離不良的局部解。實務上多用 Adam 等自適應方法,依梯度的一階與二階動量自動調整每個參數的步長,對深度網路的病態曲率更穩健。
為什麼「上億參數」反而能訓練
直覺上參數越多越難最佳化,但深度學習的經驗是:過參數化(over-parameterization) 的網路其損失地形雖非凸,卻佈滿大量「夠好」的解,且 SGD 傾向收斂到泛化良好的平坦極小值。這個現象與傳統統計直覺相悖,是當前最佳化與泛化理論的活躍課題(亦見〈訓練、驗證與過擬合〉對 double descent 的討論)。
訓練協定與訓練/推論的分野
為誠實估計泛化,資料切成訓練/驗證/測試三份,測試集只在最後評估一次。訓練好的 $\theta^\*$ 拿來對新輸入計算 $f_{\theta^\*}(x)$ 的過程稱為推論(inference)。兩者的成本結構截然不同:訓練是一次性、需反覆前向+反向傳播、極昂貴;推論只需前向傳播,單次便宜但因使用量龐大而總成本可觀。這個分野是後續〈訓練與推論:成本在哪裡〉的核心。
自監督:標籤從哪來
現代大模型的關鍵,是自監督學習:不需人工標註,直接拿資料自身當監督訊號。語言模型的「預測下一個 token」就是把海量文本的下一個字當標籤,於是整個網際網路都成了訓練資料。理解「訓練 = 用梯度最小化一個自動定義的損失」,就掌握了從 ImageNet 分類器到 GPT 的共同骨架。
深入探討(研究所視角)
從經驗風險到泛化界限
訓練看似在「最小化損失」,本質上卻是用經驗風險 $\hat{R}(f)=\frac{1}{n}\sum_{i=1}^{n}\ell(f(x_i),y_i)$ 逼近不可觀測的母體風險 $R(f)=\mathbb{E}_{(x,y)\sim\mathcal{D}}[\ell(f(x),y)]$。古典統計學習理論透過假設空間 $\mathcal{H}$ 的容量給出泛化界限,例如以 VC 維度或 Rademacher 複雜度 $\mathfrak{R}_n(\mathcal{H})$ 控制:以高機率有 $R(f)\le\hat{R}(f)+2\mathfrak{R}_n(\mathcal{H})+O\!\left(\sqrt{\tfrac{\log(1/\delta)}{n}}\right)$。耐人尋味的是,深度網路參數量遠超樣本數卻仍能泛化,這違反了傳統「容量越大越過擬合」的直覺,催生了 double descent 現象:測試誤差隨模型規模先升後降,在插值門檻(interpolation threshold)後再度下降。這暗示真正起作用的並非參數計數,而是優化器隱式選出的解的某種「有效複雜度」。
隱式正則化與優化幾何
梯度下降並非中性的求解器,而是帶有 implicit bias。對可分資料上的邏輯斯損失,梯度下降會收斂到 max-margin 方向(Soudry 等人的結果),等價於隱式地在做 $\ell_2$ 邊界最大化;這部分解釋了過參數化模型為何偏好「平坦」且泛化良好的極小值。損失地景的幾何也至關重要:以 Hessian $H=\nabla^2 \hat{R}(\theta)$ 的譜刻畫的 sharpness,與泛化負相關,是 SAM(Sharpness-Aware Minimization)等方法的理論動機——其目標近似為 $\min_\theta \max_{\|\epsilon\|\le\rho}\hat{R}(\theta+\epsilon)$。在無限寬度極限下,NTK(Neural Tangent Kernel)理論指出訓練動態趨近於以固定核 $\Theta(x,x')=\langle\nabla_\theta f(x),\nabla_\theta f(x')\rangle$ 為核的線性回歸,將非凸訓練「凸化」;但 NTK 的「lazy training」無法解釋特徵學習(feature learning),這正是當前 mean-field 與 maximal-update parametrization(μP)等理論試圖填補的缺口。
規模律、開放問題與跨主題連結
實證上,損失隨模型參數量 $N$、資料量 $D$ 與計算量 $C$ 呈冪律下降,即 scaling laws 形如 $L(N)\approx L_\infty + (N_0/N)^{\alpha}$;Chinchilla 的結論指出在固定算力下 $N$ 與 $D$ 應約略等比增長。然而冪律的指數來源、是否存在不可化約的 irreducible loss、以及湧現能力(emergent abilities)是否為度量假象,仍是開放問題。其他懸而未決的方向包括:SGD 的泛化是否能被非空泛的 PAC-Bayes 界限解釋、為何 grokking 會在過擬合後延遲泛化,以及大模型的記憶與隱私洩漏如何由 differential privacy 的 $(\varepsilon,\delta)$ 框架嚴格界定。這些問題與本專區其他主題深度交織:最佳化理論連結到凸與非凸分析,正則化連結到貝氏推論的先驗選擇,而資料分布偏移(distribution shift)下的泛化則直接通往因果推論與分布穩健優化(DRO),提示「學會」一詞最終要回答的是——模型究竟對哪一個分布、在什麼不變性假設下,習得了可遷移的結構。