用「監督訊號從哪來」分類
機器學習的典範差異,本質上是監督訊號(supervision signal)的來源不同。同一個 ERM 骨架,因訊號形式不同而衍生出三條主線,再加上近年崛起的自監督。
| 典範 | 資料 | 最佳化目標 |
|---|---|---|
| 監督式 | $(x,y)$ 配對 | 最小化 $\mathbb{E}[\ell(f_\theta(x),y)]$ |
| 非監督式 | 只有 $x$ | 建模 $p(x)$ 或其結構 |
| 強化學習 | 狀態、行動、獎勵 | 最大化期望累積獎勵 |
| 自監督 | 只有 $x$,自造標籤 | 從 $x$ 的一部分預測另一部分 |
監督式學習:條件分布的估計
給定樣本 $\{(x_i,y_i)\}$,監督式學習估計條件分布 $p(y\mid x)$ 或其點估計。以最大概似觀點,最小化負對數概似:
$$ \theta^\*=\arg\min_\theta\;-\frac{1}{n}\sum_{i=1}^{n}\log p_\theta(y_i\mid x_i) $$
- 分類:$y$ 為離散類別,$p_\theta(y\mid x)=\mathrm{softmax}$,負對數概似即交叉熵。
- 迴歸:$y$ 連續,假設高斯雜訊時負對數概似退化為均方誤差。
影像辨識、語音轉文字、機器翻譯本質上都是監督(或自監督)下的條件分布估計。
非監督式學習:建模資料本身
沒有 $y$,目標是揭露 $p(x)$ 的結構。三類代表性任務:
- 分群:如 $k$-means 最小化群內平方和 $\sum_{k}\sum_{x\in C_k}\lVert x-\mu_k\rVert^2$;高斯混合模型則以 EM 演算法做軟分群。
- 降維:PCA 找使投影變異數最大的正交方向,等價於對共變異矩陣做特徵分解(見〈經典機器學習演算法地圖〉)。
- 密度估計/生成:直接學 $p_\theta(x)$,這正是生成式模型的根基。
強化學習:序列決策的最佳化
強化學習處理與環境互動的序列決策,形式化為馬可夫決策過程(MDP) $(\mathcal{S},\mathcal{A},P,r,\gamma)$。代理人依策略 $\pi(a\mid s)$ 行動,目標是最大化期望折扣回報:
$$ G_t=\sum_{k=0}^{\infty}\gamma^{k}r_{t+k},\qquad \pi^\*=\arg\max_\pi \mathbb{E}_\pi[G_t] $$
價值函數滿足貝爾曼方程 $V^\pi(s)=\mathbb{E}_\pi[r+\gamma V^\pi(s')]$,是動態規劃與時序差分(TD)學習的核心。策略梯度則直接對 $\pi_\theta$ 上升 $\nabla_\theta \mathbb{E}_{\pi_\theta}[G]$。AlphaGo(價值+策略網路+MCTS)與 LLM 的 RLHF(把人類偏好當獎勵模型)都是 RL 的應用。
自監督:第四種典範,當代大模型的引擎
自監督把非監督的資料轉成監督的形式:從輸入的一部分預測另一部分,標籤由資料自動產生。語言模型的「預測下一個 token」、BERT 的「遮罩字還原」、對比學習的「同一張圖的兩個視角應相近」皆屬此。它兼得「不需人工標註」與「監督式的強訊號」,是 GPT、CLIP 等基礎模型得以擴展到網際網路規模的關鍵。
怎麼選
判準回到監督訊號的可得性與任務結構:有大量標註且要預測 → 監督式;只想理解資料結構 → 非監督;需與環境互動、有延遲獎勵 → 強化學習;有海量無標註資料、想學通用表徵 → 自監督預訓練。理解這個分類,就能為一個 AI 問題選對方法論起點。
深入探討(研究所視角)
從風險最小化到泛化界限
監督式學習的核心可形式化為期望風險最小化:給定資料分布 $\mathcal{D}$ 與損失 $\ell$,目標是最小化 $R(h)=\mathbb{E}_{(x,y)\sim\mathcal{D}}[\ell(h(x),y)]$,但實務上只能取得經驗風險 $\hat{R}_n(h)=\frac{1}{n}\sum_{i=1}^{n}\ell(h(x_i),y_i)$。兩者的落差由統計學習理論刻畫:以 Rademacher 複雜度 $\mathfrak{R}_n(\mathcal{H})$ 為例,對任意 $h\in\mathcal{H}$ 以機率至少 $1-\delta$ 有
$$R(h)\le \hat{R}_n(h)+2\mathfrak{R}_n(\mathcal{H})+\sqrt{\frac{\ln(1/\delta)}{2n}}.$$
這條界限解釋了為何容量受控的假設空間能泛化,但也與深度網路「過參數化卻不過擬合」的現象張力十足。double descent 與 benign overfitting 的研究指出,當參數量遠超樣本數時,隱式正則化(如 SGD 偏好小範數解)使插值解仍能泛化,傳統 VC 維與一致收斂界限在此並非緊的。這是當前的開放問題:如何給出對過參數化深網「資料相關、演算法相關」的非空泛界限。
非監督式學習的機率與幾何結構
非監督式學習可統一視為密度估計或表徵學習。生成模型常以最大化證據下界(ELBO)為目標:
$$\log p_\theta(x)\ge \mathbb{E}_{q_\phi(z|x)}[\log p_\theta(x|z)]-\mathrm{KL}\!\left(q_\phi(z|x)\,\|\,p(z)\right),$$
VAE 即直接最佳化此式,而擴散模型可視為以多尺度去噪分數匹配逼近 $\nabla_x\log p(x)$,理論上連結到 Langevin 動力學與隨機微分方程的時間反演。表徵學習方面,對比學習(如 InfoNCE 目標)被證明是互資訊 $I(x;z)$ 的變分下界,但近年研究指出其成效更多來自對齊(alignment)與均勻性(uniformity)的幾何性質,而非互資訊本身——這提醒我們目標函數的「動機詮釋」與「實際奏效機制」可能脫鉤。
強化學習的最優性與樣本複雜度
強化學習奠基於 Bellman 最優方程 $Q^*(s,a)=\mathbb{E}[r+\gamma\max_{a'}Q^*(s',a')]$,Bellman 算子的 $\gamma$-壓縮性保證了值迭代收斂。然而函數逼近下,半梯度 TD 學習在 off-policy 時可能發散(致命三元組:函數逼近、自助法、離策略)。策略梯度方法則由策略梯度定理 $\nabla_\theta J(\theta)=\mathbb{E}_{\pi_\theta}[\nabla_\theta\log\pi_\theta(a|s)\,Q^{\pi_\theta}(s,a)]$ 支撐,TRPO/PPO 透過信任域或裁剪確保單調改進。表格式 MDP 的 minimax 樣本複雜度已知約為 $\tilde{O}(|S||A|/((1-\gamma)^3\varepsilon^2))$,但連續、部分可觀測或多智能體環境的下界仍是活躍研究領域。
三者的理論交會與前沿
三種範式正快速融合:自監督預訓練(非監督)+微調(監督)已成基礎模型的標準範式,而 RLHF 與後續的 DPO 把人類偏好建模為一個可由監督式對比損失直接最佳化的隱式獎勵,繞過了顯式強化學習的不穩定性。離線強化學習則把 RL 重構為受分布偏移約束的監督式回歸問題。更深的連結在於:三者皆可置於「最小化某種變分散度」的框架下審視,而泛化、探索與表徵這三道難題,本質上都是在有限樣本下對未知分布做歸納推斷的不同切面。