Home
探索 Uedu
學生控制台
註冊會員/登入
研究知情同意中心
教師控制台
課程設定
支援與訊息
Uptime 數據

UeduGPTs

--

Jupyters

2

UG26 CISOSE26
臺北 AQI 51 · 臺中 AQI 32 · 臺南 AQI 29 · 高雄 AQI 27

AI 回覆桌面通知

AI 助教回覆完成時顯示桌面通知

聊天訊息通知

同學在討論區發送訊息時通知

聲音通知

每當有新通知時播放提示音

生成式 AI
生成式 AI

擴散模型與 AI 影像生成

Midjourney、Stable Diffusion 如何「從雜訊畫出圖」。

擴散模型與 AI 影像生成 概念插圖
概念示意插圖(AI 生成,僅作輔助理解)
研究  ·  約 15 分鐘  ·  生成式AI擴散模型影像研究

核心點子:以「加噪—去噪」逼近資料分布

擴散模型不像 LLM 那樣自迴歸,而是學一條把「資料 ↔ 雜訊」相連的隨機過程。前向過程逐步把資料加噪,反向過程學著去噪——訓練好後,從純雜訊出發逐步去噪即可取樣出新樣本。

前向過程:固定的加噪馬可夫鏈

前向過程依排程 $\{\beta_t\}$ 逐步加入高斯雜訊:

$$ q(x_t\mid x_{t-1})=\mathcal{N}\big(x_t;\sqrt{1-\beta_t}\,x_{t-1},\,\beta_t I\big) $$

它有一個關鍵的閉式性質——可一步從 $x_0$ 採到任意 $x_t$(令 $\bar{\alpha}_t=\prod_{s\le t}(1-\beta_s)$):

$$ x_t=\sqrt{\bar{\alpha}_t}\,x_0+\sqrt{1-\bar{\alpha}_t}\,\epsilon,\qquad \epsilon\sim\mathcal{N}(0,I) $$

這讓訓練可隨機抽 $t$ 而無需模擬整條鏈。

反向過程與訓練目標:預測雜訊

反向過程由網路 $\epsilon_\theta(x_t,t)$ 參數化。DDPM 證明,最大化資料對數概似的變分下界,可化簡為一個極乾淨的去噪目標——預測當初加進去的雜訊:

$$ \mathcal{L}_{\text{simple}}=\mathbb{E}_{x_0,\,\epsilon,\,t}\Big[\big\lVert \epsilon-\epsilon_\theta(x_t,t)\big\rVert^2\Big] $$

網路多用 U-Net(含時間嵌入)。這與分數匹配(score matching) 等價:$\epsilon_\theta$ 正比於對數密度的梯度 $\nabla_{x}\log p(x_t)$(即 score),Song 等人用隨機微分方程把離散步驟推廣為連續形式,統一了 DDPM 與分數模型。

取樣與加速

生成即從 $x_T\sim\mathcal{N}(0,I)$ 反覆去噪到 $x_0$。原始 DDPM 需數百到上千步,DDIM 等確定性取樣器可在十餘步內取樣,大幅加速。

條件生成:文字如何控制畫面

文字生圖(text-to-image)把文字嵌入 $c$ 作為條件 $\epsilon_\theta(x_t,t,c)$。無分類器引導(classifier-free guidance) 以引導強度 $w$ 外插「有條件」與「無條件」預測,強化對提示的服從:

$$ \hat{\epsilon}=\epsilon_\theta(x_t,t,\varnothing)+w\big(\epsilon_\theta(x_t,t,c)-\epsilon_\theta(x_t,t,\varnothing)\big) $$

$w$ 越大越貼合提示、但多樣性與自然度可能下降——又是品質/多樣性的權衡。

潛在擴散:把擴散搬進壓縮空間

在像素空間擴散昂貴。潛在擴散(Latent Diffusion,Stable Diffusion 的基礎) 先用自編碼器把影像壓到低維潛在空間,在那裡做擴散,再解碼回像素,計算量大降,使高解析生成得以普及。衍生能力:image-to-image、inpainting、ControlNet(以線稿/姿勢/深度圖做結構條件)。同一思路延伸到影片(Sora、Runway,需兼顧時間一致性)與音訊

創作之外的倫理

擴散模型也帶來真實爭議:訓練資料版權深偽(deepfake) 與不實影像、對創作者生計的衝擊。能生成不代表該濫用——這些屬於〈AI 偏誤〉〈幻覺、對齊與 AI 安全〉〈AI 治理〉討論的範圍。

深入探討(研究所視角)

從離散馬可夫鏈到連續隨機微分方程

入門主體中的 DDPM 是離散時間的加噪/去噪過程,但更深刻的觀點是把它視為一條隨機微分方程(SDE)的離散化。Song 等人提出的 score-based 統一框架指出,前向加噪可寫成

$$\mathrm{d}\mathbf{x} = \mathbf{f}(\mathbf{x}, t)\,\mathrm{d}t + g(t)\,\mathrm{d}\mathbf{w},$$

其中 $\mathbf{w}$ 為 Wiener 過程;DDPM 對應 Variance Preserving SDE,而 Score Matching with Langevin Dynamics 對應 Variance Exploding SDE。關鍵定理是 Anderson(1982)的時間反轉公式:對應的反向過程為

$$\mathrm{d}\mathbf{x} = \big[\mathbf{f}(\mathbf{x}, t) - g(t)^2 \nabla_{\mathbf{x}} \log p_t(\mathbf{x})\big]\,\mathrm{d}t + g(t)\,\mathrm{d}\bar{\mathbf{w}}.$$

這揭示了去噪網路真正學習的不是「噪聲」本身,而是邊際分布的 score function $\nabla_{\mathbf{x}} \log p_t(\mathbf{x})$。$\epsilon$-prediction、$\mathbf{x}_0$-prediction 與 $\mathbf{v}$-prediction 三種參數化在此框架下可證明為彼此的線性重參數化,差別僅在於不同噪聲水準下的隱式加權,進而影響訓練的數值穩定性。

Probability Flow ODE 與確定性採樣

每條反向 SDE 都對應一條共享相同邊際分布 $\{p_t\}$ 的機率流常微分方程(Probability Flow ODE)

$$\frac{\mathrm{d}\mathbf{x}}{\mathrm{d}t} = \mathbf{f}(\mathbf{x}, t) - \tfrac{1}{2} g(t)^2 \nabla_{\mathbf{x}} \log p_t(\mathbf{x}).$$

此 ODE 的確定性軌跡使擴散模型成為連續正規化流(CNF)的特例,從而可用瞬時變數變換公式計算精確對數似然,也讓 DDIM 得到嚴格詮釋——它正是此 ODE 的一階離散化。後續加速採樣的 SOTA(如 DPM-Solver 利用半線性結構的指數積分子、EDM 對前處理與噪聲排程的系統化設計)本質上都是對此 ODE 設計更高階、誤差更低的數值求解器,將採樣步數從上千步壓到個位數。

與其他生成範式的理論連結及開放問題

擴散模型可被理解為階層式變分自編碼器(VAE)在無限多潛在層、且編碼器固定為高斯加噪時的極限,其訓練目標即為證據下界(ELBO)的去噪重加權版本。另一方面,它與最優傳輸Schrödinger Bridge 緊密相連:後者把生成視為兩個任意分布間帶熵正則的最優傳輸問題,不要求一端必為高斯先驗,催生了 Flow Matching 與 Rectified Flow 等以回歸條件期望速度場為訓練目標的新框架,這些方法理論上能拉直 ODE 軌跡而進一步減少採樣步數。

懸而未決的問題仍多:classifier-free guidance 雖能大幅提升保真度,但其放大後的取樣分布已非任何良定義機率密度的真實 score,理論基礎尚不完備;score 估計誤差如何透過反向動力學傳播並界定生成分布與真實分布的 Wasserstein 距離,仍缺乏緊緻的非漸近界;潛在空間擴散(Latent Diffusion,即 Stable Diffusion 的骨幹)將計算移至 VAE 壓縮後的潛在域,但壓縮誤差與擴散誤差如何權衡、以及離散資料(如文字、分子圖)上的擴散該採用何種前向過程,都是當前活躍的研究前沿。

接著問 AI 助教

點一下複製提問,到 ClassroomGPT、優學伴(AIDA)或你的 UeduGPTs 頻道貼上,AI 會引用本專區內容回答。

AI 共讀助教正在陪你讀:擴散模型與 AI 影像生成
嗨!我是這篇文章的共讀助教,只根據〈擴散模型與 AI 影像生成〉的內容回答。可以問我「解釋某段」「舉個例子」「出題考我」,或反白文中段落後點下方「解釋選取段落」。