Home
探索 Uedu
學生控制台
註冊會員/登入
研究知情同意中心
教師控制台
課程設定
支援與訊息
Uptime 數據

UeduGPTs

--

Jupyters

2

UG26 CISOSE26
臺北 AQI 48 · 臺中 AQI 34 · 臺南 AQI 31 · 高雄 AQI 29

AI 回覆桌面通知

AI 助教回覆完成時顯示桌面通知

聊天訊息通知

同學在討論區發送訊息時通知

聲音通知

每當有新通知時播放提示音

人工智慧概論
人工智慧概論

AI、機器學習、深度學習、生成式 AI 的關係

四個常被混用的名詞,其實是一層套一層的同心圓。

AI、機器學習、深度學習、生成式 AI 的關係 概念插圖
概念示意插圖(AI 生成,僅作輔助理解)
研究  ·  約 11 分鐘  ·  基礎名詞表徵學習研究

不是並列,而是包含

這四個詞常被混用,但它們是嚴格的包含關係:生成式 AI ⊂ 深度學習 ⊂ 機器學習 ⊂ 人工智慧。先用一句話定位,再逐層深入其方法論差異。

範圍 名詞 核心方法
最大 人工智慧(AI) 任何使機器展現智慧行為的方法(含符號推理、搜尋)
機器學習(ML) 從資料估計模型參數,而非手寫規則
深度學習(DL) 以多層可微分網路端到端學習階層式表徵
最小 生成式 AI 建模資料分布並從中取樣新樣本

ML:從手工特徵到參數估計

傳統機器學習的管線是「手工特徵工程 + 淺層模型」:人類設計特徵 $\phi(x)$,再用 SVM、邏輯迴歸等學一個決策函數。其瓶頸在於——特徵設計極度仰賴領域知識,且在影像、語音、文字這類高維非結構資料上難以窮舉。

DL 的關鍵突破:表徵學習

深度學習的革命性在於把特徵也一起學起來,即表徵學習(representation learning)。一個 $L$ 層網路是函數的複合:

$$ f_\theta(x)=f^{(L)}\circ f^{(L-1)}\circ\cdots\circ f^{(1)}(x),\qquad f^{(l)}(h)=\sigma\!\big(W^{(l)}h+b^{(l)}\big) $$

每一層學到越來越抽象的表徵:淺層捕捉邊緣/音素/詞素,深層組合成物件/語意。「深」之所以重要,有理論支撐——某些函數用深層網路可指數級地比淺層網路更省參數地表示(深度的表達力優勢,depth–width trade-off)。這讓「人類設計特徵」被「資料驅動的階層表徵」取代。

判別式 vs. 生成式:建模什麼分布

ML 模型可依「建模哪個機率分布」二分,這也是理解生成式 AI 的關鍵:

  • 判別式模型(discriminative):直接建模條件分布 $p(y\mid x)$,回答「給定輸入,標籤是什麼」。分類器、迴歸器屬此。
  • 生成式模型(generative):建模聯合分布 $p(x,y)$ 或資料分布 $p(x)$,因此能取樣生成新的 $x$。

生成式 AI 的本質,就是學一個對真實資料分布 $p_{\text{data}}(x)$ 的近似 $p_\theta(x)$,再從中抽樣:

$$ \hat{x}\sim p_\theta(x) $$

語言模型把它分解為自迴歸形式 $p_\theta(x)=\prod_t p_\theta(x_t\mid x_{<t})$;擴散模型則用一條「加噪—去噪」的隨機過程逼近 $p_\theta(x)$。能「創造」不是魔法,而是分布估計 + 取樣

為什麼層次很重要

把這個包含關係搞清楚,能避免常見誤解:「生成式 AI」不是一種全新的智慧,而是深度學習在分布建模上的一個應用面向;它仍受 ML 的泛化理論、DL 的最佳化與表達力理論所約束。接下來的章節正是沿這個層次展開——先機器學習的統計基礎與深度學習的最佳化原理,再進入生成式 AI 的核心機制。

深入探討(研究所視角)

為什麼「同心圓」在表達能力上是嚴格包含關係

入門主體把 AI ⊃ ML ⊃ DL ⊃ GenAI 描述為概念上的層層內嵌,但在表達能力(representational capacity)層面,這個包含關係其實有可證明的理論支撐。通用近似定理(Universal Approximation Theorem,Cybenko 1989、Hornik 1991)指出:只要單一隱藏層配合非多項式激活函數,神經網路即可在緊緻集上對任意連續函數 $f:\mathbb{R}^n\to\mathbb{R}$ 達到任意精度近似,

$$\forall \varepsilon>0,\ \exists\, g(x)=\sum_{i=1}^{N} c_i\,\sigma(w_i^\top x + b_i),\quad \sup_{x\in K}|f(x)-g(x)|<\varepsilon.$$

這說明 DL 在「能表示什麼」上並不比淺層模型更強——真正的差異在參數效率。深度的價值由「深度分離」結果刻畫:存在某些函數族(如組合性、振盪性高的函數),淺層網路需要 $\Omega(2^n)$ 個神經元,深層卻只需 $\mathrm{poly}(n)$(Telgarsky 2016、Eldan–Shamir 2016)。換言之,DL 之所以成為 ML 的有效子集,靠的不是更大的假設空間,而是對「自然訊號的層級結構」更省樣本、更省參數的歸納偏置(inductive bias)。

生成式 AI 在統計學習框架中的定位

GenAI 與判別式模型的分野,可回到生成式 $p(x,y)$ 與判別式 $p(y\mid x)$ 的古典對立(Ng–Jordan 2002)。當代 GenAI 的核心是對高維資料分佈 $p_{\text{data}}(x)$ 本身建模,而其數學形式高度分歧:自回歸語言模型最小化交叉熵,等價於最小化 $D_{\mathrm{KL}}(p_{\text{data}}\,\|\,p_\theta)$;變分自編碼器最大化證據下界(ELBO)

$$\log p_\theta(x)\ \ge\ \mathbb{E}_{q_\phi(z\mid x)}[\log p_\theta(x\mid z)]-D_{\mathrm{KL}}\big(q_\phi(z\mid x)\,\|\,p(z)\big);$$

擴散模型則透過逐步去噪學習得分函數 $\nabla_x\log p_t(x)$,其連續極限對應一條反向隨機微分方程(Song et al. 2021)。值得強調的是 Transformer 注意力 $\mathrm{Attn}(Q,K,V)=\mathrm{softmax}\!\left(\frac{QK^\top}{\sqrt{d_k}}\right)V$ 對序列長度 $L$ 的 $O(L^2)$ 複雜度,正是當前 SOTA 的主要瓶頸,催生了 FlashAttention、線性注意力與狀態空間模型(如 Mamba)等次方複雜度變體。

開放問題與跨主題理論連結

研究前沿的核心張力在於:經典統計學習理論(VC 維、Rademacher 複雜度)預測過參數化模型應嚴重過擬合,實證上深度網路卻在參數量遠超樣本數時仍能泛化。雙重下降(double descent,Belkin et al. 2019)與神經正切核(NTK,Jacot et al. 2018)試圖在「惰性訓練」極限下解釋這一現象,但對特徵學習機制仍無完整理論。另一條主線是標度律(scaling laws,Kaplan et al. 2020),它將損失刻畫為參數、資料與算力的冪律函數,卻無法回答「能力為何在某些規模出現相變式湧現」這一開放問題。這些議題又與資訊瓶頸理論、最佳化幾何(損失地景的鞍點與寬平極小值)、以及表徵的可辨識性(identifiability)緊密相連——也正是同心圓最外層(AI 的可解釋性與對齊)尚未被內層數學完全封閉的關鍵缺口。

接著問 AI 助教

點一下複製提問,到 ClassroomGPT、優學伴(AIDA)或你的 UeduGPTs 頻道貼上,AI 會引用本專區內容回答。

AI 共讀助教正在陪你讀:AI、機器學習、深度學習、生成式 AI 的關係
嗨!我是這篇文章的共讀助教,只根據〈AI、機器學習、深度學習、生成式 AI 的關係〉的內容回答。可以問我「解釋某段」「舉個例子」「出題考我」,或反白文中段落後點下方「解釋選取段落」。