不是並列,而是包含
這四個詞常被混用,但它們是嚴格的包含關係:生成式 AI ⊂ 深度學習 ⊂ 機器學習 ⊂ 人工智慧。先用一句話定位,再逐層深入其方法論差異。
| 範圍 | 名詞 | 核心方法 |
|---|---|---|
| 最大 | 人工智慧(AI) | 任何使機器展現智慧行為的方法(含符號推理、搜尋) |
| ↳ | 機器學習(ML) | 從資料估計模型參數,而非手寫規則 |
| ↳ | 深度學習(DL) | 以多層可微分網路端到端學習階層式表徵 |
| 最小 | 生成式 AI | 建模資料分布並從中取樣新樣本 |
ML:從手工特徵到參數估計
傳統機器學習的管線是「手工特徵工程 + 淺層模型」:人類設計特徵 $\phi(x)$,再用 SVM、邏輯迴歸等學一個決策函數。其瓶頸在於——特徵設計極度仰賴領域知識,且在影像、語音、文字這類高維非結構資料上難以窮舉。
DL 的關鍵突破:表徵學習
深度學習的革命性在於把特徵也一起學起來,即表徵學習(representation learning)。一個 $L$ 層網路是函數的複合:
$$ f_\theta(x)=f^{(L)}\circ f^{(L-1)}\circ\cdots\circ f^{(1)}(x),\qquad f^{(l)}(h)=\sigma\!\big(W^{(l)}h+b^{(l)}\big) $$
每一層學到越來越抽象的表徵:淺層捕捉邊緣/音素/詞素,深層組合成物件/語意。「深」之所以重要,有理論支撐——某些函數用深層網路可指數級地比淺層網路更省參數地表示(深度的表達力優勢,depth–width trade-off)。這讓「人類設計特徵」被「資料驅動的階層表徵」取代。
判別式 vs. 生成式:建模什麼分布
ML 模型可依「建模哪個機率分布」二分,這也是理解生成式 AI 的關鍵:
- 判別式模型(discriminative):直接建模條件分布 $p(y\mid x)$,回答「給定輸入,標籤是什麼」。分類器、迴歸器屬此。
- 生成式模型(generative):建模聯合分布 $p(x,y)$ 或資料分布 $p(x)$,因此能取樣生成新的 $x$。
生成式 AI 的本質,就是學一個對真實資料分布 $p_{\text{data}}(x)$ 的近似 $p_\theta(x)$,再從中抽樣:
$$ \hat{x}\sim p_\theta(x) $$
語言模型把它分解為自迴歸形式 $p_\theta(x)=\prod_t p_\theta(x_t\mid x_{<t})$;擴散模型則用一條「加噪—去噪」的隨機過程逼近 $p_\theta(x)$。能「創造」不是魔法,而是分布估計 + 取樣。
為什麼層次很重要
把這個包含關係搞清楚,能避免常見誤解:「生成式 AI」不是一種全新的智慧,而是深度學習在分布建模上的一個應用面向;它仍受 ML 的泛化理論、DL 的最佳化與表達力理論所約束。接下來的章節正是沿這個層次展開——先機器學習的統計基礎與深度學習的最佳化原理,再進入生成式 AI 的核心機制。
深入探討(研究所視角)
為什麼「同心圓」在表達能力上是嚴格包含關係
入門主體把 AI ⊃ ML ⊃ DL ⊃ GenAI 描述為概念上的層層內嵌,但在表達能力(representational capacity)層面,這個包含關係其實有可證明的理論支撐。通用近似定理(Universal Approximation Theorem,Cybenko 1989、Hornik 1991)指出:只要單一隱藏層配合非多項式激活函數,神經網路即可在緊緻集上對任意連續函數 $f:\mathbb{R}^n\to\mathbb{R}$ 達到任意精度近似,
$$\forall \varepsilon>0,\ \exists\, g(x)=\sum_{i=1}^{N} c_i\,\sigma(w_i^\top x + b_i),\quad \sup_{x\in K}|f(x)-g(x)|<\varepsilon.$$
這說明 DL 在「能表示什麼」上並不比淺層模型更強——真正的差異在參數效率。深度的價值由「深度分離」結果刻畫:存在某些函數族(如組合性、振盪性高的函數),淺層網路需要 $\Omega(2^n)$ 個神經元,深層卻只需 $\mathrm{poly}(n)$(Telgarsky 2016、Eldan–Shamir 2016)。換言之,DL 之所以成為 ML 的有效子集,靠的不是更大的假設空間,而是對「自然訊號的層級結構」更省樣本、更省參數的歸納偏置(inductive bias)。
生成式 AI 在統計學習框架中的定位
GenAI 與判別式模型的分野,可回到生成式 $p(x,y)$ 與判別式 $p(y\mid x)$ 的古典對立(Ng–Jordan 2002)。當代 GenAI 的核心是對高維資料分佈 $p_{\text{data}}(x)$ 本身建模,而其數學形式高度分歧:自回歸語言模型最小化交叉熵,等價於最小化 $D_{\mathrm{KL}}(p_{\text{data}}\,\|\,p_\theta)$;變分自編碼器最大化證據下界(ELBO)
$$\log p_\theta(x)\ \ge\ \mathbb{E}_{q_\phi(z\mid x)}[\log p_\theta(x\mid z)]-D_{\mathrm{KL}}\big(q_\phi(z\mid x)\,\|\,p(z)\big);$$
擴散模型則透過逐步去噪學習得分函數 $\nabla_x\log p_t(x)$,其連續極限對應一條反向隨機微分方程(Song et al. 2021)。值得強調的是 Transformer 注意力 $\mathrm{Attn}(Q,K,V)=\mathrm{softmax}\!\left(\frac{QK^\top}{\sqrt{d_k}}\right)V$ 對序列長度 $L$ 的 $O(L^2)$ 複雜度,正是當前 SOTA 的主要瓶頸,催生了 FlashAttention、線性注意力與狀態空間模型(如 Mamba)等次方複雜度變體。
開放問題與跨主題理論連結
研究前沿的核心張力在於:經典統計學習理論(VC 維、Rademacher 複雜度)預測過參數化模型應嚴重過擬合,實證上深度網路卻在參數量遠超樣本數時仍能泛化。雙重下降(double descent,Belkin et al. 2019)與神經正切核(NTK,Jacot et al. 2018)試圖在「惰性訓練」極限下解釋這一現象,但對特徵學習機制仍無完整理論。另一條主線是標度律(scaling laws,Kaplan et al. 2020),它將損失刻畫為參數、資料與算力的冪律函數,卻無法回答「能力為何在某些規模出現相變式湧現」這一開放問題。這些議題又與資訊瓶頸理論、最佳化幾何(損失地景的鞍點與寬平極小值)、以及表徵的可辨識性(identifiability)緊密相連——也正是同心圓最外層(AI 的可解釋性與對齊)尚未被內層數學完全封閉的關鍵缺口。