Home
探索 Uedu
學生控制台
註冊會員/登入
研究知情同意中心
教師控制台
課程設定
支援與訊息
Uptime 數據

UeduGPTs

--

Jupyters

2

UG26 CISOSE26
臺北 AQI 48 · 臺中 AQI 34 · 臺南 AQI 31 · 高雄 AQI 29

AI 回覆桌面通知

AI 助教回覆完成時顯示桌面通知

聊天訊息通知

同學在討論區發送訊息時通知

聲音通知

每當有新通知時播放提示音

人工智慧概論
人工智慧概論

AI 是怎麼「學會」的?資料、模型與訓練

拆解「訓練一個模型」這句話背後到底發生了什麼。

AI 是怎麼「學會」的?資料、模型與訓練 概念插圖
概念示意插圖(AI 生成,僅作輔助理解)
研究  ·  約 13 分鐘  ·  基礎訓練最佳化研究

「訓練」這句話的精確意義

口語說「訓練一個模型」,背後是一個明確的數學程序:在參數空間中,用梯度資訊搜尋一組使損失最小的參數。把三個關鍵字精確化:

  • 模型:一個參數化函數 $f_\theta:\mathcal{X}\to\mathcal{Y}$,$\theta\in\mathbb{R}^P$ 是可訓練參數(現代 LLM 的 $P$ 達數千億)。
  • 資料:來自分布 $\mathcal{D}$ 的樣本 $\{(x_i,y_i)\}_{i=1}^n$。
  • 訓練:求解最佳化問題 $\displaystyle \theta^\*=\arg\min_\theta \hat{R}(\theta)$。

目標函數:經驗風險與損失

我們最小化經驗風險(平均損失):

$$ \hat{R}(\theta)=\frac{1}{n}\sum_{i=1}^{n}\ell\big(f_\theta(x_i),\,y_i\big) $$

損失 $\ell$ 的選擇取決於任務。兩個最常見:

  • 迴歸——均方誤差 $\ell=\tfrac{1}{2}\lVert f_\theta(x)-y\rVert^2$。
  • 分類/語言建模——交叉熵 $\ell=-\sum_{c} y_c\log \hat{y}_c$,其中 $\hat{y}=\mathrm{softmax}(f_\theta(x))$。語言模型即對「下一個 token」的類別做交叉熵。

交叉熵最小化等價於最大概似估計(MLE):讓模型賦予真實資料的對數機率最大。

梯度下降:往最陡的下坡走

參數更新用梯度下降。梯度 $\nabla_\theta \hat{R}$ 指向損失上升最快的方向,故往反方向走:

$$ \theta \leftarrow \theta-\eta\,\nabla_\theta \hat{R}(\theta) $$

$\eta$ 是學習率。但對 $n$ 上億的資料,每步都算全量梯度太貴,故用隨機梯度下降(SGD):每次只用一個小批次(mini-batch)$\mathcal{B}$ 估計梯度,

$$ \theta \leftarrow \theta-\eta\,\frac{1}{|\mathcal{B}|}\sum_{i\in\mathcal{B}}\nabla_\theta \ell\big(f_\theta(x_i),y_i\big) $$

小批次梯度是全量梯度的無偏估計,其雜訊不僅可接受,甚至有助逃離不良的局部解。實務上多用 Adam 等自適應方法,依梯度的一階與二階動量自動調整每個參數的步長,對深度網路的病態曲率更穩健。

為什麼「上億參數」反而能訓練

直覺上參數越多越難最佳化,但深度學習的經驗是:過參數化(over-parameterization) 的網路其損失地形雖非凸,卻佈滿大量「夠好」的解,且 SGD 傾向收斂到泛化良好的平坦極小值。這個現象與傳統統計直覺相悖,是當前最佳化與泛化理論的活躍課題(亦見〈訓練、驗證與過擬合〉對 double descent 的討論)。

訓練協定與訓練/推論的分野

為誠實估計泛化,資料切成訓練/驗證/測試三份,測試集只在最後評估一次。訓練好的 $\theta^\*$ 拿來對新輸入計算 $f_{\theta^\*}(x)$ 的過程稱為推論(inference)。兩者的成本結構截然不同:訓練是一次性、需反覆前向+反向傳播、極昂貴;推論只需前向傳播,單次便宜但因使用量龐大而總成本可觀。這個分野是後續〈訓練與推論:成本在哪裡〉的核心。

自監督:標籤從哪來

現代大模型的關鍵,是自監督學習:不需人工標註,直接拿資料自身當監督訊號。語言模型的「預測下一個 token」就是把海量文本的下一個字當標籤,於是整個網際網路都成了訓練資料。理解「訓練 = 用梯度最小化一個自動定義的損失」,就掌握了從 ImageNet 分類器到 GPT 的共同骨架。

深入探討(研究所視角)

從經驗風險到泛化界限

訓練看似在「最小化損失」,本質上卻是用經驗風險 $\hat{R}(f)=\frac{1}{n}\sum_{i=1}^{n}\ell(f(x_i),y_i)$ 逼近不可觀測的母體風險 $R(f)=\mathbb{E}_{(x,y)\sim\mathcal{D}}[\ell(f(x),y)]$。古典統計學習理論透過假設空間 $\mathcal{H}$ 的容量給出泛化界限,例如以 VC 維度或 Rademacher 複雜度 $\mathfrak{R}_n(\mathcal{H})$ 控制:以高機率有 $R(f)\le\hat{R}(f)+2\mathfrak{R}_n(\mathcal{H})+O\!\left(\sqrt{\tfrac{\log(1/\delta)}{n}}\right)$。耐人尋味的是,深度網路參數量遠超樣本數卻仍能泛化,這違反了傳統「容量越大越過擬合」的直覺,催生了 double descent 現象:測試誤差隨模型規模先升後降,在插值門檻(interpolation threshold)後再度下降。這暗示真正起作用的並非參數計數,而是優化器隱式選出的解的某種「有效複雜度」。

隱式正則化與優化幾何

梯度下降並非中性的求解器,而是帶有 implicit bias。對可分資料上的邏輯斯損失,梯度下降會收斂到 max-margin 方向(Soudry 等人的結果),等價於隱式地在做 $\ell_2$ 邊界最大化;這部分解釋了過參數化模型為何偏好「平坦」且泛化良好的極小值。損失地景的幾何也至關重要:以 Hessian $H=\nabla^2 \hat{R}(\theta)$ 的譜刻畫的 sharpness,與泛化負相關,是 SAM(Sharpness-Aware Minimization)等方法的理論動機——其目標近似為 $\min_\theta \max_{\|\epsilon\|\le\rho}\hat{R}(\theta+\epsilon)$。在無限寬度極限下,NTK(Neural Tangent Kernel)理論指出訓練動態趨近於以固定核 $\Theta(x,x')=\langle\nabla_\theta f(x),\nabla_\theta f(x')\rangle$ 為核的線性回歸,將非凸訓練「凸化」;但 NTK 的「lazy training」無法解釋特徵學習(feature learning),這正是當前 mean-field 與 maximal-update parametrization(μP)等理論試圖填補的缺口。

規模律、開放問題與跨主題連結

實證上,損失隨模型參數量 $N$、資料量 $D$ 與計算量 $C$ 呈冪律下降,即 scaling laws 形如 $L(N)\approx L_\infty + (N_0/N)^{\alpha}$;Chinchilla 的結論指出在固定算力下 $N$ 與 $D$ 應約略等比增長。然而冪律的指數來源、是否存在不可化約的 irreducible loss、以及湧現能力(emergent abilities)是否為度量假象,仍是開放問題。其他懸而未決的方向包括:SGD 的泛化是否能被非空泛的 PAC-Bayes 界限解釋、為何 grokking 會在過擬合後延遲泛化,以及大模型的記憶與隱私洩漏如何由 differential privacy 的 $(\varepsilon,\delta)$ 框架嚴格界定。這些問題與本專區其他主題深度交織:最佳化理論連結到凸與非凸分析,正則化連結到貝氏推論的先驗選擇,而資料分布偏移(distribution shift)下的泛化則直接通往因果推論與分布穩健優化(DRO),提示「學會」一詞最終要回答的是——模型究竟對哪一個分布、在什麼不變性假設下,習得了可遷移的結構。

接著問 AI 助教

點一下複製提問,到 ClassroomGPT、優學伴(AIDA)或你的 UeduGPTs 頻道貼上,AI 會引用本專區內容回答。

AI 共讀助教正在陪你讀:AI 是怎麼「學會」的?資料、模型與訓練
嗨!我是這篇文章的共讀助教,只根據〈AI 是怎麼「學會」的?資料、模型與訓練〉的內容回答。可以問我「解釋某段」「舉個例子」「出題考我」,或反白文中段落後點下方「解釋選取段落」。