Home
探索 Uedu
學生控制台
註冊會員/登入
研究知情同意中心
教師控制台
課程設定
支援與訊息
Uptime 數據

UeduGPTs

--

Jupyters

2

UG26 CISOSE26
臺北 AQI 48 · 臺中 AQI 34 · 臺南 AQI 31 · 高雄 AQI 29

AI 回覆桌面通知

AI 助教回覆完成時顯示桌面通知

聊天訊息通知

同學在討論區發送訊息時通知

聲音通知

每當有新通知時播放提示音

生成式 AI
生成式 AI

什麼是生成式 AI?

從「判斷」到「創造」——AI 的角色如何質變。

什麼是生成式 AI? 概念插圖
概念示意插圖(AI 生成,僅作輔助理解)
研究  ·  約 12 分鐘  ·  生成式AI生成模型研究

判別式與生成式:建模哪個分布

兩者的分野是機率上的:判別式模型學條件分布 $p(y\mid x)$(給輸入判標籤);生成式模型學資料分布 $p(x)$ 或聯合分布 $p(x,y)$,因此能取樣出新的 $x$。生成式 AI 的「創造」不是玄學,而是

$$ \text{學一個 } p_\theta(x)\approx p_{\text{data}}(x)\;\Longrightarrow\;\text{取樣 } \hat{x}\sim p_\theta(x) $$

——對真實資料分布做近似,再從中抽樣。

深度生成模型的四大家族

如何參數化並學習 $p_\theta(x)$,分出幾條技術路線,各有取捨:

家族 核心思想 取捨
自迴歸(AR) 鏈式分解 $p(x)=\prod_t p(x_t\mid x_{<t})$ 概似可算、生成需逐步;LLM 屬此
變分自編碼器(VAE) 學隱變數 $z$,最大化證據下界 ELBO 訓練穩定、樣本較模糊
生成對抗網路(GAN) 生成器與判別器對抗博弈 樣本銳利、訓練不穩、無顯式概似
擴散模型 學反轉「加噪」的隨機過程 樣本品質高、取樣較慢;當代影像主流

自迴歸:語言生成的主形式

語言天生有序,故 LLM 採自迴歸分解,把生成轉為「反覆預測下一個 token」:

$$ p_\theta(x_{1:T})=\prod_{t=1}^{T}p_\theta(x_t\mid x_{1:t-1}) $$

訓練即對每個位置做交叉熵(最大概似);生成即從 $p_\theta(x_t\mid x_{<t})$ 逐步取樣(解碼)。影像則改由擴散模型學「從雜訊還原資料」的反向過程(見〈擴散模型與 AI 影像生成〉)。

怎麼評估「生成得好不好」

生成模型的評估比判別模型棘手,因為沒有單一正確答案:

  • 概似/困惑度(perplexity):對 AR 模型,測試集負對數概似越低越好。
  • 樣本品質與多樣性:影像常用 FID(比較生成與真實分布的特徵統計)、IS。
  • 人類偏好與下游任務表現:對 LLM 越來越倚重人評與基準。

「品質」與「多樣性」常此消彼長(如降低取樣溫度提升連貫但減少多樣),是生成式系統的核心張力。

為什麼是現在,以及「湧現」的爭議

Transformer(可平行、可擴展)+ 巨量資料 + 算力,使模型大到在許多任務上表現隨規模躍升,部分能力被稱為湧現(emergence)。但「湧現是真的相變、還是評估指標不連續造成的錯覺」仍有爭論。務實的理解是:生成式 AI 是深度生成模型在規模化後的應用面向,其能力強大但仍受分布估計的本質所限——它擅長產出分布上似真的內容,卻不保證事實為真(這正是幻覺的根源,見〈幻覺、對齊與 AI 安全〉)。接著深入它的主角:大型語言模型。

深入探討(研究所視角)

從密度估計到變分下界

生成式模型的核心並非「會創造」,而是對資料分佈 $p_{\text{data}}(x)$ 進行隱式或顯式建模。對潛變數模型 $p_\theta(x) = \int p_\theta(x\mid z)\,p(z)\,dz$ 而言,邊際似然往往不可解。VAE 透過引入變分後驗 $q_\phi(z\mid x)$,最大化證據下界(ELBO):

$$\log p_\theta(x) \ge \mathbb{E}_{q_\phi(z\mid x)}\!\left[\log p_\theta(x\mid z)\right] - D_{\mathrm{KL}}\!\left(q_\phi(z\mid x)\,\|\,p(z)\right).$$

兩者之差恰為 $D_{\mathrm{KL}}(q_\phi(z\mid x)\,\|\,p_\theta(z\mid x))\ge 0$,這正說明了「為何下界成立」以及「何時收緊」。GAN 則完全繞過密度,改以 minimax 對抗:在最優判別器下,生成器的目標等價於最小化 Jensen–Shannon 散度,而 Wasserstein GAN 進一步改用 Earth-Mover 距離以緩解梯度消失與模式崩潰(mode collapse)。

擴散模型的隨機微分方程觀點

當前影像生成的 SOTA 由擴散模型主導。其前向加噪過程可寫為 Itô SDE $dx = f(x,t)\,dt + g(t)\,dw$,而 Anderson 的時間反演定理保證存在對應的逆向 SDE:

$$dx = \left[f(x,t) - g(t)^2 \nabla_x \log p_t(x)\right]dt + g(t)\,d\bar{w}.$$

關鍵在於未知的 score 函數 $\nabla_x \log p_t(x)$,可由神經網路 $s_\theta(x,t)$ 經 denoising score matching 學得。值得注意的是,反向過程同時存在一條確定性的 probability flow ODE,與 SDE 共享相同的邊際分佈——這既是 DDIM 等快速取樣器的理論基礎,也將擴散模型與連續正規化流(continuous normalizing flow)統一起來。

開放問題與理論連結

研究前沿仍有若干根本性張力。其一是「評估」:似然、FID 與人類偏好三者並不一致,且生成樣本的可信賴密度估計本身即為開放問題。其二是自回歸大型語言模型的本質——它最小化的是 token 層級交叉熵,理論上逼近 $H(p_{\text{data}})$,但其展現的 in-context learning 能力是否可化約為隱式的貝氏推論或梯度下降,至今無定論;neural scaling laws 雖給出經驗冪律 $L(N)\propto N^{-\alpha}$,卻缺乏第一性原理的解釋。其三,擴散與流匹配(flow matching)的興起,正將生成建模重新表述為「學習一個將先驗運送到資料分佈的傳輸映射」,與最優傳輸(optimal transport)理論深度交織。由此可見,「判斷到創造」的質變,在數學上實為從條件期望 $\mathbb{E}[y\mid x]$ 的點估計,躍遷至對整個高維分佈進行可取樣表徵的問題。

接著問 AI 助教

點一下複製提問,到 ClassroomGPT、優學伴(AIDA)或你的 UeduGPTs 頻道貼上,AI 會引用本專區內容回答。

AI 共讀助教正在陪你讀:什麼是生成式 AI?
嗨!我是這篇文章的共讀助教,只根據〈什麼是生成式 AI?〉的內容回答。可以問我「解釋某段」「舉個例子」「出題考我」,或反白文中段落後點下方「解釋選取段落」。