監督式、非監督式與強化學習

用「監督訊號從哪來」分類

機器學習的典範差異，本質上是監督訊號（supervision signal）的來源不同。同一個 ERM 骨架，因訊號形式不同而衍生出三條主線，再加上近年崛起的自監督。

典範	資料	最佳化目標
監督式	$(x,y)$ 配對	最小化 $\mathbb{E}[\ell(f_\theta(x),y)]$
非監督式	只有 $x$	建模 $p(x)$ 或其結構
強化學習	狀態、行動、獎勵	最大化期望累積獎勵
自監督	只有 $x$，自造標籤	從 $x$ 的一部分預測另一部分

監督式學習：條件分布的估計

給定樣本 $\{(x_i,y_i)\}$，監督式學習估計條件分布 $p(y\mid x)$ 或其點估計。以最大概似觀點，最小化負對數概似：

$$ \theta^\*=\arg\min_\theta\;-\frac{1}{n}\sum_{i=1}^{n}\log p_\theta(y_i\mid x_i) $$

分類：$y$ 為離散類別，$p_\theta(y\mid x)=\mathrm{softmax}$，負對數概似即交叉熵。
迴歸：$y$ 連續，假設高斯雜訊時負對數概似退化為均方誤差。

影像辨識、語音轉文字、機器翻譯本質上都是監督（或自監督）下的條件分布估計。

非監督式學習：建模資料本身

沒有 $y$，目標是揭露 $p(x)$ 的結構。三類代表性任務：

分群：如 $k$-means 最小化群內平方和 $\sum_{k}\sum_{x\in C_k}\lVert x-\mu_k\rVert^2$；高斯混合模型則以 EM 演算法做軟分群。
降維：PCA 找使投影變異數最大的正交方向，等價於對共變異矩陣做特徵分解（見〈經典機器學習演算法地圖〉）。
密度估計／生成：直接學 $p_\theta(x)$，這正是生成式模型的根基。

強化學習：序列決策的最佳化

強化學習處理與環境互動的序列決策，形式化為馬可夫決策過程（MDP） $(\mathcal{S},\mathcal{A},P,r,\gamma)$。代理人依策略 $\pi(a\mid s)$ 行動，目標是最大化期望折扣回報：

$$ G_t=\sum_{k=0}^{\infty}\gamma^{k}r_{t+k},\qquad \pi^\*=\arg\max_\pi \mathbb{E}_\pi[G_t] $$

價值函數滿足貝爾曼方程 $V^\pi(s)=\mathbb{E}_\pi[r+\gamma V^\pi(s')]$，是動態規劃與時序差分（TD）學習的核心。策略梯度則直接對 $\pi_\theta$ 上升 $\nabla_\theta \mathbb{E}_{\pi_\theta}[G]$。AlphaGo（價值＋策略網路＋MCTS）與 LLM 的 RLHF（把人類偏好當獎勵模型）都是 RL 的應用。

自監督：第四種典範，當代大模型的引擎

自監督把非監督的資料轉成監督的形式：從輸入的一部分預測另一部分，標籤由資料自動產生。語言模型的「預測下一個 token」、BERT 的「遮罩字還原」、對比學習的「同一張圖的兩個視角應相近」皆屬此。它兼得「不需人工標註」與「監督式的強訊號」，是 GPT、CLIP 等基礎模型得以擴展到網際網路規模的關鍵。

怎麼選

判準回到監督訊號的可得性與任務結構：有大量標註且要預測 → 監督式；只想理解資料結構 → 非監督；需與環境互動、有延遲獎勵 → 強化學習；有海量無標註資料、想學通用表徵 → 自監督預訓練。理解這個分類，就能為一個 AI 問題選對方法論起點。

深入探討（研究所視角）

從風險最小化到泛化界限

監督式學習的核心可形式化為期望風險最小化：給定資料分布 $\mathcal{D}$ 與損失 $\ell$，目標是最小化 $R(h)=\mathbb{E}_{(x,y)\sim\mathcal{D}}[\ell(h(x),y)]$，但實務上只能取得經驗風險 $\hat{R}_n(h)=\frac{1}{n}\sum_{i=1}^{n}\ell(h(x_i),y_i)$。兩者的落差由統計學習理論刻畫：以 Rademacher 複雜度 $\mathfrak{R}_n(\mathcal{H})$ 為例，對任意 $h\in\mathcal{H}$ 以機率至少 $1-\delta$ 有

$$R(h)\le \hat{R}_n(h)+2\mathfrak{R}_n(\mathcal{H})+\sqrt{\frac{\ln(1/\delta)}{2n}}.$$

這條界限解釋了為何容量受控的假設空間能泛化，但也與深度網路「過參數化卻不過擬合」的現象張力十足。double descent 與 benign overfitting 的研究指出，當參數量遠超樣本數時，隱式正則化（如 SGD 偏好小範數解）使插值解仍能泛化，傳統 VC 維與一致收斂界限在此並非緊的。這是當前的開放問題：如何給出對過參數化深網「資料相關、演算法相關」的非空泛界限。

非監督式學習的機率與幾何結構

非監督式學習可統一視為密度估計或表徵學習。生成模型常以最大化證據下界（ELBO）為目標：

$$\log p_\theta(x)\ge \mathbb{E}_{q_\phi(z|x)}[\log p_\theta(x|z)]-\mathrm{KL}\!\left(q_\phi(z|x)\,\|\,p(z)\right),$$

VAE 即直接最佳化此式，而擴散模型可視為以多尺度去噪分數匹配逼近 $\nabla_x\log p(x)$，理論上連結到 Langevin 動力學與隨機微分方程的時間反演。表徵學習方面，對比學習（如 InfoNCE 目標）被證明是互資訊 $I(x;z)$ 的變分下界，但近年研究指出其成效更多來自對齊（alignment）與均勻性（uniformity）的幾何性質，而非互資訊本身——這提醒我們目標函數的「動機詮釋」與「實際奏效機制」可能脫鉤。

強化學習的最優性與樣本複雜度

強化學習奠基於 Bellman 最優方程 $Q^*(s,a)=\mathbb{E}[r+\gamma\max_{a'}Q^*(s',a')]$，Bellman 算子的 $\gamma$-壓縮性保證了值迭代收斂。然而函數逼近下，半梯度 TD 學習在 off-policy 時可能發散（致命三元組：函數逼近、自助法、離策略）。策略梯度方法則由策略梯度定理 $\nabla_\theta J(\theta)=\mathbb{E}_{\pi_\theta}[\nabla_\theta\log\pi_\theta(a|s)\,Q^{\pi_\theta}(s,a)]$ 支撐，TRPO／PPO 透過信任域或裁剪確保單調改進。表格式 MDP 的 minimax 樣本複雜度已知約為 $\tilde{O}(|S||A|/((1-\gamma)^3\varepsilon^2))$，但連續、部分可觀測或多智能體環境的下界仍是活躍研究領域。

三者的理論交會與前沿

三種範式正快速融合：自監督預訓練（非監督）＋微調（監督）已成基礎模型的標準範式，而 RLHF 與後續的 DPO 把人類偏好建模為一個可由監督式對比損失直接最佳化的隱式獎勵，繞過了顯式強化學習的不穩定性。離線強化學習則把 RL 重構為受分布偏移約束的監督式回歸問題。更深的連結在於：三者皆可置於「最小化某種變分散度」的框架下審視，而泛化、探索與表徵這三道難題，本質上都是在有限樣本下對未知分布做歸納推斷的不同切面。

--

0

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings