核心點子:以「加噪—去噪」逼近資料分布
擴散模型不像 LLM 那樣自迴歸,而是學一條把「資料 ↔ 雜訊」相連的隨機過程。前向過程逐步把資料加噪,反向過程學著去噪——訓練好後,從純雜訊出發逐步去噪即可取樣出新樣本。
前向過程:固定的加噪馬可夫鏈
前向過程依排程 $\{\beta_t\}$ 逐步加入高斯雜訊:
$$ q(x_t\mid x_{t-1})=\mathcal{N}\big(x_t;\sqrt{1-\beta_t}\,x_{t-1},\,\beta_t I\big) $$
它有一個關鍵的閉式性質——可一步從 $x_0$ 採到任意 $x_t$(令 $\bar{\alpha}_t=\prod_{s\le t}(1-\beta_s)$):
$$ x_t=\sqrt{\bar{\alpha}_t}\,x_0+\sqrt{1-\bar{\alpha}_t}\,\epsilon,\qquad \epsilon\sim\mathcal{N}(0,I) $$
這讓訓練可隨機抽 $t$ 而無需模擬整條鏈。
反向過程與訓練目標:預測雜訊
反向過程由網路 $\epsilon_\theta(x_t,t)$ 參數化。DDPM 證明,最大化資料對數概似的變分下界,可化簡為一個極乾淨的去噪目標——預測當初加進去的雜訊:
$$ \mathcal{L}_{\text{simple}}=\mathbb{E}_{x_0,\,\epsilon,\,t}\Big[\big\lVert \epsilon-\epsilon_\theta(x_t,t)\big\rVert^2\Big] $$
網路多用 U-Net(含時間嵌入)。這與分數匹配(score matching) 等價:$\epsilon_\theta$ 正比於對數密度的梯度 $\nabla_{x}\log p(x_t)$(即 score),Song 等人用隨機微分方程把離散步驟推廣為連續形式,統一了 DDPM 與分數模型。
取樣與加速
生成即從 $x_T\sim\mathcal{N}(0,I)$ 反覆去噪到 $x_0$。原始 DDPM 需數百到上千步,DDIM 等確定性取樣器可在十餘步內取樣,大幅加速。
條件生成:文字如何控制畫面
文字生圖(text-to-image)把文字嵌入 $c$ 作為條件 $\epsilon_\theta(x_t,t,c)$。無分類器引導(classifier-free guidance) 以引導強度 $w$ 外插「有條件」與「無條件」預測,強化對提示的服從:
$$ \hat{\epsilon}=\epsilon_\theta(x_t,t,\varnothing)+w\big(\epsilon_\theta(x_t,t,c)-\epsilon_\theta(x_t,t,\varnothing)\big) $$
$w$ 越大越貼合提示、但多樣性與自然度可能下降——又是品質/多樣性的權衡。
潛在擴散:把擴散搬進壓縮空間
在像素空間擴散昂貴。潛在擴散(Latent Diffusion,Stable Diffusion 的基礎) 先用自編碼器把影像壓到低維潛在空間,在那裡做擴散,再解碼回像素,計算量大降,使高解析生成得以普及。衍生能力:image-to-image、inpainting、ControlNet(以線稿/姿勢/深度圖做結構條件)。同一思路延伸到影片(Sora、Runway,需兼顧時間一致性)與音訊。
創作之外的倫理
擴散模型也帶來真實爭議:訓練資料版權、深偽(deepfake) 與不實影像、對創作者生計的衝擊。能生成不代表該濫用——這些屬於〈AI 偏誤〉〈幻覺、對齊與 AI 安全〉〈AI 治理〉討論的範圍。
深入探討(研究所視角)
從離散馬可夫鏈到連續隨機微分方程
入門主體中的 DDPM 是離散時間的加噪/去噪過程,但更深刻的觀點是把它視為一條隨機微分方程(SDE)的離散化。Song 等人提出的 score-based 統一框架指出,前向加噪可寫成
$$\mathrm{d}\mathbf{x} = \mathbf{f}(\mathbf{x}, t)\,\mathrm{d}t + g(t)\,\mathrm{d}\mathbf{w},$$
其中 $\mathbf{w}$ 為 Wiener 過程;DDPM 對應 Variance Preserving SDE,而 Score Matching with Langevin Dynamics 對應 Variance Exploding SDE。關鍵定理是 Anderson(1982)的時間反轉公式:對應的反向過程為
$$\mathrm{d}\mathbf{x} = \big[\mathbf{f}(\mathbf{x}, t) - g(t)^2 \nabla_{\mathbf{x}} \log p_t(\mathbf{x})\big]\,\mathrm{d}t + g(t)\,\mathrm{d}\bar{\mathbf{w}}.$$
這揭示了去噪網路真正學習的不是「噪聲」本身,而是邊際分布的 score function $\nabla_{\mathbf{x}} \log p_t(\mathbf{x})$。$\epsilon$-prediction、$\mathbf{x}_0$-prediction 與 $\mathbf{v}$-prediction 三種參數化在此框架下可證明為彼此的線性重參數化,差別僅在於不同噪聲水準下的隱式加權,進而影響訓練的數值穩定性。
Probability Flow ODE 與確定性採樣
每條反向 SDE 都對應一條共享相同邊際分布 $\{p_t\}$ 的機率流常微分方程(Probability Flow ODE):
$$\frac{\mathrm{d}\mathbf{x}}{\mathrm{d}t} = \mathbf{f}(\mathbf{x}, t) - \tfrac{1}{2} g(t)^2 \nabla_{\mathbf{x}} \log p_t(\mathbf{x}).$$
此 ODE 的確定性軌跡使擴散模型成為連續正規化流(CNF)的特例,從而可用瞬時變數變換公式計算精確對數似然,也讓 DDIM 得到嚴格詮釋——它正是此 ODE 的一階離散化。後續加速採樣的 SOTA(如 DPM-Solver 利用半線性結構的指數積分子、EDM 對前處理與噪聲排程的系統化設計)本質上都是對此 ODE 設計更高階、誤差更低的數值求解器,將採樣步數從上千步壓到個位數。
與其他生成範式的理論連結及開放問題
擴散模型可被理解為階層式變分自編碼器(VAE)在無限多潛在層、且編碼器固定為高斯加噪時的極限,其訓練目標即為證據下界(ELBO)的去噪重加權版本。另一方面,它與最優傳輸和 Schrödinger Bridge 緊密相連:後者把生成視為兩個任意分布間帶熵正則的最優傳輸問題,不要求一端必為高斯先驗,催生了 Flow Matching 與 Rectified Flow 等以回歸條件期望速度場為訓練目標的新框架,這些方法理論上能拉直 ODE 軌跡而進一步減少採樣步數。
懸而未決的問題仍多:classifier-free guidance 雖能大幅提升保真度,但其放大後的取樣分布已非任何良定義機率密度的真實 score,理論基礎尚不完備;score 估計誤差如何透過反向動力學傳播並界定生成分布與真實分布的 Wasserstein 距離,仍缺乏緊緻的非漸近界;潛在空間擴散(Latent Diffusion,即 Stable Diffusion 的骨幹)將計算移至 VAE 壓縮後的潛在域,但壓縮誤差與擴散誤差如何權衡、以及離散資料(如文字、分子圖)上的擴散該採用何種前向過程,都是當前活躍的研究前沿。