什麼是生成式 AI？

判別式與生成式：建模哪個分布

兩者的分野是機率上的：判別式模型學條件分布 $p(y\mid x)$（給輸入判標籤）；生成式模型學資料分布 $p(x)$ 或聯合分布 $p(x,y)$，因此能取樣出新的 $x$。生成式 AI 的「創造」不是玄學，而是

$$ \text{學一個 } p_\theta(x)\approx p_{\text{data}}(x)\;\Longrightarrow\;\text{取樣 } \hat{x}\sim p_\theta(x) $$

——對真實資料分布做近似，再從中抽樣。

深度生成模型的四大家族

如何參數化並學習 $p_\theta(x)$，分出幾條技術路線，各有取捨：

家族	核心思想	取捨
自迴歸（AR）	鏈式分解 $p(x)=\prod_t p(x_t\mid x_{<t})$	概似可算、生成需逐步；LLM 屬此
變分自編碼器（VAE）	學隱變數 $z$，最大化證據下界 ELBO	訓練穩定、樣本較模糊
生成對抗網路（GAN）	生成器與判別器對抗博弈	樣本銳利、訓練不穩、無顯式概似
擴散模型	學反轉「加噪」的隨機過程	樣本品質高、取樣較慢；當代影像主流

自迴歸：語言生成的主形式

語言天生有序，故 LLM 採自迴歸分解，把生成轉為「反覆預測下一個 token」：

$$ p_\theta(x_{1:T})=\prod_{t=1}^{T}p_\theta(x_t\mid x_{1:t-1}) $$

訓練即對每個位置做交叉熵（最大概似）；生成即從 $p_\theta(x_t\mid x_{<t})$ 逐步取樣（解碼）。影像則改由擴散模型學「從雜訊還原資料」的反向過程（見〈擴散模型與 AI 影像生成〉）。

怎麼評估「生成得好不好」

生成模型的評估比判別模型棘手，因為沒有單一正確答案：

概似／困惑度（perplexity）：對 AR 模型，測試集負對數概似越低越好。
樣本品質與多樣性：影像常用 FID（比較生成與真實分布的特徵統計）、IS。
人類偏好與下游任務表現：對 LLM 越來越倚重人評與基準。

「品質」與「多樣性」常此消彼長（如降低取樣溫度提升連貫但減少多樣），是生成式系統的核心張力。

為什麼是現在，以及「湧現」的爭議

Transformer（可平行、可擴展）＋巨量資料＋算力，使模型大到在許多任務上表現隨規模躍升，部分能力被稱為湧現（emergence）。但「湧現是真的相變、還是評估指標不連續造成的錯覺」仍有爭論。務實的理解是：生成式 AI 是深度生成模型在規模化後的應用面向，其能力強大但仍受分布估計的本質所限——它擅長產出分布上似真的內容，卻不保證事實為真（這正是幻覺的根源，見〈幻覺、對齊與 AI 安全〉）。接著深入它的主角：大型語言模型。

深入探討（研究所視角）

從密度估計到變分下界

生成式模型的核心並非「會創造」，而是對資料分佈 $p_{\text{data}}(x)$ 進行隱式或顯式建模。對潛變數模型 $p_\theta(x) = \int p_\theta(x\mid z)\,p(z)\,dz$ 而言，邊際似然往往不可解。VAE 透過引入變分後驗 $q_\phi(z\mid x)$，最大化證據下界（ELBO）：

$$\log p_\theta(x) \ge \mathbb{E}_{q_\phi(z\mid x)}\!\left[\log p_\theta(x\mid z)\right] - D_{\mathrm{KL}}\!\left(q_\phi(z\mid x)\,\|\,p(z)\right).$$

兩者之差恰為 $D_{\mathrm{KL}}(q_\phi(z\mid x)\,\|\,p_\theta(z\mid x))\ge 0$，這正說明了「為何下界成立」以及「何時收緊」。GAN 則完全繞過密度，改以 minimax 對抗：在最優判別器下，生成器的目標等價於最小化 Jensen–Shannon 散度，而 Wasserstein GAN 進一步改用 Earth-Mover 距離以緩解梯度消失與模式崩潰（mode collapse）。

擴散模型的隨機微分方程觀點

當前影像生成的 SOTA 由擴散模型主導。其前向加噪過程可寫為 Itô SDE $dx = f(x,t)\,dt + g(t)\,dw$，而 Anderson 的時間反演定理保證存在對應的逆向 SDE：

$$dx = \left[f(x,t) - g(t)^2 \nabla_x \log p_t(x)\right]dt + g(t)\,d\bar{w}.$$

關鍵在於未知的 score 函數 $\nabla_x \log p_t(x)$，可由神經網路 $s_\theta(x,t)$ 經 denoising score matching 學得。值得注意的是，反向過程同時存在一條確定性的 probability flow ODE，與 SDE 共享相同的邊際分佈——這既是 DDIM 等快速取樣器的理論基礎，也將擴散模型與連續正規化流（continuous normalizing flow）統一起來。

開放問題與理論連結

研究前沿仍有若干根本性張力。其一是「評估」：似然、FID 與人類偏好三者並不一致，且生成樣本的可信賴密度估計本身即為開放問題。其二是自回歸大型語言模型的本質——它最小化的是 token 層級交叉熵，理論上逼近 $H(p_{\text{data}})$，但其展現的 in-context learning 能力是否可化約為隱式的貝氏推論或梯度下降，至今無定論；neural scaling laws 雖給出經驗冪律 $L(N)\propto N^{-\alpha}$，卻缺乏第一性原理的解釋。其三，擴散與流匹配（flow matching）的興起，正將生成建模重新表述為「學習一個將先驗運送到資料分佈的傳輸映射」，與最優傳輸（optimal transport）理論深度交織。由此可見，「判斷到創造」的質變，在數學上實為從條件期望 $\mathbb{E}[y\mid x]$ 的點估計，躍遷至對整個高維分佈進行可取樣表徵的問題。

--

0

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings