擴散模型與 AI 影像生成

核心點子：以「加噪—去噪」逼近資料分布

擴散模型不像 LLM 那樣自迴歸，而是學一條把「資料 ↔ 雜訊」相連的隨機過程。前向過程逐步把資料加噪，反向過程學著去噪——訓練好後，從純雜訊出發逐步去噪即可取樣出新樣本。

前向過程：固定的加噪馬可夫鏈

前向過程依排程 $\{\beta_t\}$ 逐步加入高斯雜訊：

$$ q(x_t\mid x_{t-1})=\mathcal{N}\big(x_t;\sqrt{1-\beta_t}\,x_{t-1},\,\beta_t I\big) $$

它有一個關鍵的閉式性質——可一步從 $x_0$ 採到任意 $x_t$（令 $\bar{\alpha}_t=\prod_{s\le t}(1-\beta_s)$）：

$$ x_t=\sqrt{\bar{\alpha}_t}\,x_0+\sqrt{1-\bar{\alpha}_t}\,\epsilon,\qquad \epsilon\sim\mathcal{N}(0,I) $$

這讓訓練可隨機抽 $t$ 而無需模擬整條鏈。

反向過程與訓練目標：預測雜訊

反向過程由網路 $\epsilon_\theta(x_t,t)$ 參數化。DDPM 證明，最大化資料對數概似的變分下界，可化簡為一個極乾淨的去噪目標——預測當初加進去的雜訊：

$$ \mathcal{L}_{\text{simple}}=\mathbb{E}_{x_0,\,\epsilon,\,t}\Big[\big\lVert \epsilon-\epsilon_\theta(x_t,t)\big\rVert^2\Big] $$

網路多用 U-Net（含時間嵌入）。這與分數匹配（score matching） 等價：$\epsilon_\theta$ 正比於對數密度的梯度 $\nabla_{x}\log p(x_t)$（即 score），Song 等人用隨機微分方程把離散步驟推廣為連續形式，統一了 DDPM 與分數模型。

取樣與加速

生成即從 $x_T\sim\mathcal{N}(0,I)$ 反覆去噪到 $x_0$。原始 DDPM 需數百到上千步，DDIM 等確定性取樣器可在十餘步內取樣，大幅加速。

條件生成：文字如何控制畫面

文字生圖（text-to-image）把文字嵌入 $c$ 作為條件 $\epsilon_\theta(x_t,t,c)$。無分類器引導（classifier-free guidance） 以引導強度 $w$ 外插「有條件」與「無條件」預測，強化對提示的服從：

$$ \hat{\epsilon}=\epsilon_\theta(x_t,t,\varnothing)+w\big(\epsilon_\theta(x_t,t,c)-\epsilon_\theta(x_t,t,\varnothing)\big) $$

$w$ 越大越貼合提示、但多樣性與自然度可能下降——又是品質／多樣性的權衡。

潛在擴散：把擴散搬進壓縮空間

在像素空間擴散昂貴。潛在擴散（Latent Diffusion，Stable Diffusion 的基礎） 先用自編碼器把影像壓到低維潛在空間，在那裡做擴散，再解碼回像素，計算量大降，使高解析生成得以普及。衍生能力：image-to-image、inpainting、ControlNet（以線稿／姿勢／深度圖做結構條件）。同一思路延伸到影片（Sora、Runway，需兼顧時間一致性）與音訊。

創作之外的倫理

擴散模型也帶來真實爭議：訓練資料版權、深偽（deepfake） 與不實影像、對創作者生計的衝擊。能生成不代表該濫用——這些屬於〈AI 偏誤〉〈幻覺、對齊與 AI 安全〉〈AI 治理〉討論的範圍。

深入探討（研究所視角）

從離散馬可夫鏈到連續隨機微分方程

入門主體中的 DDPM 是離散時間的加噪／去噪過程，但更深刻的觀點是把它視為一條隨機微分方程（SDE）的離散化。Song 等人提出的 score-based 統一框架指出，前向加噪可寫成

$$\mathrm{d}\mathbf{x} = \mathbf{f}(\mathbf{x}, t)\,\mathrm{d}t + g(t)\,\mathrm{d}\mathbf{w},$$

其中 $\mathbf{w}$ 為 Wiener 過程；DDPM 對應 Variance Preserving SDE，而 Score Matching with Langevin Dynamics 對應 Variance Exploding SDE。關鍵定理是 Anderson（1982）的時間反轉公式：對應的反向過程為

$$\mathrm{d}\mathbf{x} = \big[\mathbf{f}(\mathbf{x}, t) - g(t)^2 \nabla_{\mathbf{x}} \log p_t(\mathbf{x})\big]\,\mathrm{d}t + g(t)\,\mathrm{d}\bar{\mathbf{w}}.$$

這揭示了去噪網路真正學習的不是「噪聲」本身，而是邊際分布的 score function $\nabla_{\mathbf{x}} \log p_t(\mathbf{x})$。$\epsilon$-prediction、$\mathbf{x}_0$-prediction 與 $\mathbf{v}$-prediction 三種參數化在此框架下可證明為彼此的線性重參數化，差別僅在於不同噪聲水準下的隱式加權，進而影響訓練的數值穩定性。

Probability Flow ODE 與確定性採樣

每條反向 SDE 都對應一條共享相同邊際分布 $\{p_t\}$ 的機率流常微分方程（Probability Flow ODE）：

$$\frac{\mathrm{d}\mathbf{x}}{\mathrm{d}t} = \mathbf{f}(\mathbf{x}, t) - \tfrac{1}{2} g(t)^2 \nabla_{\mathbf{x}} \log p_t(\mathbf{x}).$$

此 ODE 的確定性軌跡使擴散模型成為連續正規化流（CNF）的特例，從而可用瞬時變數變換公式計算精確對數似然，也讓 DDIM 得到嚴格詮釋——它正是此 ODE 的一階離散化。後續加速採樣的 SOTA（如 DPM-Solver 利用半線性結構的指數積分子、EDM 對前處理與噪聲排程的系統化設計）本質上都是對此 ODE 設計更高階、誤差更低的數值求解器，將採樣步數從上千步壓到個位數。

與其他生成範式的理論連結及開放問題

擴散模型可被理解為階層式變分自編碼器（VAE）在無限多潛在層、且編碼器固定為高斯加噪時的極限，其訓練目標即為證據下界（ELBO）的去噪重加權版本。另一方面，它與最優傳輸和 Schrödinger Bridge 緊密相連：後者把生成視為兩個任意分布間帶熵正則的最優傳輸問題，不要求一端必為高斯先驗，催生了 Flow Matching 與 Rectified Flow 等以回歸條件期望速度場為訓練目標的新框架，這些方法理論上能拉直 ODE 軌跡而進一步減少採樣步數。

懸而未決的問題仍多：classifier-free guidance 雖能大幅提升保真度，但其放大後的取樣分布已非任何良定義機率密度的真實 score，理論基礎尚不完備；score 估計誤差如何透過反向動力學傳播並界定生成分布與真實分布的 Wasserstein 距離，仍缺乏緊緻的非漸近界；潛在空間擴散（Latent Diffusion，即 Stable Diffusion 的骨幹）將計算移至 VAE 壓縮後的潛在域，但壓縮誤差與擴散誤差如何權衡、以及離散資料（如文字、分子圖）上的擴散該採用何種前向過程，都是當前活躍的研究前沿。

--

0

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings