AI 是怎麼「學會」的？資料、模型與訓練

「訓練」這句話的精確意義

口語說「訓練一個模型」，背後是一個明確的數學程序：在參數空間中，用梯度資訊搜尋一組使損失最小的參數。把三個關鍵字精確化：

模型：一個參數化函數 $f_\theta:\mathcal{X}\to\mathcal{Y}$，$\theta\in\mathbb{R}^P$ 是可訓練參數（現代 LLM 的 $P$ 達數千億）。
資料：來自分布 $\mathcal{D}$ 的樣本 $\{(x_i,y_i)\}_{i=1}^n$。
訓練：求解最佳化問題 $\displaystyle \theta^\*=\arg\min_\theta \hat{R}(\theta)$。

目標函數：經驗風險與損失

我們最小化經驗風險（平均損失）：

$$ \hat{R}(\theta)=\frac{1}{n}\sum_{i=1}^{n}\ell\big(f_\theta(x_i),\,y_i\big) $$

損失 $\ell$ 的選擇取決於任務。兩個最常見：

迴歸——均方誤差 $\ell=\tfrac{1}{2}\lVert f_\theta(x)-y\rVert^2$。
分類／語言建模——交叉熵 $\ell=-\sum_{c} y_c\log \hat{y}_c$，其中 $\hat{y}=\mathrm{softmax}(f_\theta(x))$。語言模型即對「下一個 token」的類別做交叉熵。

交叉熵最小化等價於最大概似估計（MLE）：讓模型賦予真實資料的對數機率最大。

梯度下降：往最陡的下坡走

參數更新用梯度下降。梯度 $\nabla_\theta \hat{R}$ 指向損失上升最快的方向，故往反方向走：

$$ \theta \leftarrow \theta-\eta\,\nabla_\theta \hat{R}(\theta) $$

$\eta$ 是學習率。但對 $n$ 上億的資料，每步都算全量梯度太貴，故用隨機梯度下降（SGD）：每次只用一個小批次（mini-batch）$\mathcal{B}$ 估計梯度，

$$ \theta \leftarrow \theta-\eta\,\frac{1}{|\mathcal{B}|}\sum_{i\in\mathcal{B}}\nabla_\theta \ell\big(f_\theta(x_i),y_i\big) $$

小批次梯度是全量梯度的無偏估計，其雜訊不僅可接受，甚至有助逃離不良的局部解。實務上多用 Adam 等自適應方法，依梯度的一階與二階動量自動調整每個參數的步長，對深度網路的病態曲率更穩健。

為什麼「上億參數」反而能訓練

直覺上參數越多越難最佳化，但深度學習的經驗是：過參數化（over-parameterization） 的網路其損失地形雖非凸，卻佈滿大量「夠好」的解，且 SGD 傾向收斂到泛化良好的平坦極小值。這個現象與傳統統計直覺相悖，是當前最佳化與泛化理論的活躍課題（亦見〈訓練、驗證與過擬合〉對 double descent 的討論）。

訓練協定與訓練／推論的分野

為誠實估計泛化，資料切成訓練／驗證／測試三份，測試集只在最後評估一次。訓練好的 $\theta^\*$ 拿來對新輸入計算 $f_{\theta^\*}(x)$ 的過程稱為推論（inference）。兩者的成本結構截然不同：訓練是一次性、需反覆前向＋反向傳播、極昂貴；推論只需前向傳播，單次便宜但因使用量龐大而總成本可觀。這個分野是後續〈訓練與推論：成本在哪裡〉的核心。

自監督：標籤從哪來

現代大模型的關鍵，是自監督學習：不需人工標註，直接拿資料自身當監督訊號。語言模型的「預測下一個 token」就是把海量文本的下一個字當標籤，於是整個網際網路都成了訓練資料。理解「訓練 = 用梯度最小化一個自動定義的損失」，就掌握了從 ImageNet 分類器到 GPT 的共同骨架。

深入探討（研究所視角）

從經驗風險到泛化界限

訓練看似在「最小化損失」，本質上卻是用經驗風險 $\hat{R}(f)=\frac{1}{n}\sum_{i=1}^{n}\ell(f(x_i),y_i)$ 逼近不可觀測的母體風險 $R(f)=\mathbb{E}_{(x,y)\sim\mathcal{D}}[\ell(f(x),y)]$。古典統計學習理論透過假設空間 $\mathcal{H}$ 的容量給出泛化界限，例如以 VC 維度或 Rademacher 複雜度 $\mathfrak{R}_n(\mathcal{H})$ 控制：以高機率有 $R(f)\le\hat{R}(f)+2\mathfrak{R}_n(\mathcal{H})+O\!\left(\sqrt{\tfrac{\log(1/\delta)}{n}}\right)$。耐人尋味的是，深度網路參數量遠超樣本數卻仍能泛化，這違反了傳統「容量越大越過擬合」的直覺，催生了 double descent 現象：測試誤差隨模型規模先升後降，在插值門檻（interpolation threshold）後再度下降。這暗示真正起作用的並非參數計數，而是優化器隱式選出的解的某種「有效複雜度」。

隱式正則化與優化幾何

梯度下降並非中性的求解器，而是帶有 implicit bias。對可分資料上的邏輯斯損失，梯度下降會收斂到 max-margin 方向（Soudry 等人的結果），等價於隱式地在做 $\ell_2$ 邊界最大化；這部分解釋了過參數化模型為何偏好「平坦」且泛化良好的極小值。損失地景的幾何也至關重要：以 Hessian $H=\nabla^2 \hat{R}(\theta)$ 的譜刻畫的 sharpness，與泛化負相關，是 SAM（Sharpness-Aware Minimization）等方法的理論動機——其目標近似為 $\min_\theta \max_{\|\epsilon\|\le\rho}\hat{R}(\theta+\epsilon)$。在無限寬度極限下，NTK（Neural Tangent Kernel）理論指出訓練動態趨近於以固定核 $\Theta(x,x')=\langle\nabla_\theta f(x),\nabla_\theta f(x')\rangle$ 為核的線性回歸，將非凸訓練「凸化」；但 NTK 的「lazy training」無法解釋特徵學習（feature learning），這正是當前 mean-field 與 maximal-update parametrization（μP）等理論試圖填補的缺口。

規模律、開放問題與跨主題連結

實證上，損失隨模型參數量 $N$、資料量 $D$ 與計算量 $C$ 呈冪律下降，即 scaling laws 形如 $L(N)\approx L_\infty + (N_0/N)^{\alpha}$；Chinchilla 的結論指出在固定算力下 $N$ 與 $D$ 應約略等比增長。然而冪律的指數來源、是否存在不可化約的 irreducible loss、以及湧現能力（emergent abilities）是否為度量假象，仍是開放問題。其他懸而未決的方向包括：SGD 的泛化是否能被非空泛的 PAC-Bayes 界限解釋、為何 grokking 會在過擬合後延遲泛化，以及大模型的記憶與隱私洩漏如何由 differential privacy 的 $(\varepsilon,\delta)$ 框架嚴格界定。這些問題與本專區其他主題深度交織：最佳化理論連結到凸與非凸分析，正則化連結到貝氏推論的先驗選擇，而資料分布偏移（distribution shift）下的泛化則直接通往因果推論與分布穩健優化（DRO），提示「學會」一詞最終要回答的是——模型究竟對哪一個分布、在什麼不變性假設下，習得了可遷移的結構。

--

0

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings