貝氏更新：先驗、概似與後驗的嚴謹推導

從比例式到共軛先驗，再看 Bernstein–von Mises 如何連接貝氏與頻率派

進階 · 約 11 分鐘 ·#貝氏更新#先驗與後驗#共軛先驗#最大概似#Bernstein–von Mises#可信區間

從一個信念到下一個信念：貝氏更新的核心

當我們手上有一個對未知參數的初步看法，又觀察到新資料時，理性的做法不是丟掉舊看法、也不是無視新證據，而是把兩者「按比例融合」。貝氏更新正是把這個直覺寫成嚴格機率運算的機器：它告訴我們先驗（prior）如何在概似（likelihood）的牽引下，演化為後驗（posterior）。

設未知參數為 $\theta$，觀察到的資料為 $D$。貝氏定理寫成

$$p(\theta \mid D) = \frac{p(D \mid \theta)\, p(\theta)}{p(D)}, \qquad p(D) = \int p(D \mid \theta)\, p(\theta)\, d\theta.$$

這裡 $p(\theta)$ 是先驗，$p(D \mid \theta)$ 視為 $\theta$ 的函數時稱為概似 $L(\theta)$，$p(\theta \mid D)$ 是後驗，分母 $p(D)$ 稱為邊際概似（marginal likelihood）或證據（evidence）。由於 $p(D)$ 不依賴 $\theta$，更新的核心可以濃縮成一句口訣：

$$\text{後驗} \propto \text{概似} \times \text{先驗}.$$

貝氏更新：先驗、概似與後驗概念示意圖

為什麼分母可以暫時忽略——但不能永遠忽略

把後驗寫成比例式之所以合法，是因為 $p(\theta \mid D)$ 必須在 $\theta$ 上積分為 1。換言之，分母 $p(D)$ 純粹扮演正規化常數（normalizing constant）的角色：它把「概似乘先驗」這個未必積分為 1 的函數，縮放成合格的機率密度。

但 $p(D)$ 並非毫無資訊。在模型比較中，

$$\text{Bayes factor} = \frac{p(D \mid M_1)}{p(D \mid M_2)}$$

正是兩個模型各自邊際概似的比值，它自動懲罰過度複雜的模型（Occam 剃刀效應內建於積分之中）。所以「忽略分母」只在固定模型、估計參數時成立；一旦要在模型之間抉擇，分母就是主角。

序貫更新：今天的後驗是明天的先驗

貝氏更新最迷人的性質是它的可遞迴性。若資料 $D = \{x_1, \dots, x_n\}$ 在給定 $\theta$ 下條件獨立，則

$$p(\theta \mid x_1, \dots, x_n) \propto p(\theta) \prod_{i=1}^{n} p(x_i \mid \theta).$$

這意味著我們可以一筆一筆地吸收資料：

$$p(\theta \mid x_1, x_2) \propto p(x_2 \mid \theta)\, \underbrace{p(\theta \mid x_1)}_{\text{昨日後驗作為今日先驗}}.$$

只要最終乘積相同，分批更新與一次更新得到的後驗完全一致。這正是線上學習（online learning）與序貫推論的理論基礎。

共軛先驗：讓更新有閉式解

一般而言分母的積分難以解析，但若選擇與概似「共軛」的先驗，後驗會落在與先驗相同的分布族，只需更新參數即可。最經典的是 Beta–Binomial 模型。

設成功機率為 $\theta$，先驗取 $\theta \sim \text{Beta}(\alpha, \beta)$，密度為

$$p(\theta) = \frac{\theta^{\alpha-1}(1-\theta)^{\beta-1}}{B(\alpha, \beta)}.$$

觀察 $n$ 次試驗中 $k$ 次成功，概似為 $L(\theta) \propto \theta^{k}(1-\theta)^{n-k}$。兩者相乘：

$$p(\theta \mid D) \propto \theta^{\alpha+k-1}(1-\theta)^{\beta+n-k-1},$$

恰好又是一個 Beta 分布：

$$\theta \mid D \sim \text{Beta}(\alpha + k,\ \beta + n - k).$$

更新規則漂亮得驚人：成功數加進 $\alpha$、失敗數加進 $\beta$。這也讓 $\alpha, \beta$ 獲得「虛擬先驗樣本數」的直觀解讀。

定量小範例：硬幣公正嗎

假設我們懷疑一枚硬幣，先驗採用較弱資訊的 $\text{Beta}(2, 2)$（偏好接近 $0.5$ 但不武斷）。實際投擲 $n = 10$ 次，得到 $k = 7$ 次正面。代入更新規則：

$$\theta \mid D \sim \text{Beta}(2 + 7,\ 2 + 3) = \text{Beta}(9, 5).$$

後驗的點估計可用後驗平均：

$$\mathbb{E}[\theta \mid D] = \frac{\alpha'}{\alpha' + \beta'} = \frac{9}{9 + 5} = \frac{9}{14} \approx 0.643.$$

注意它落在先驗平均 $0.5$ 與資料比例 $\hat\theta_{\text{MLE}} = 7/10 = 0.7$ 之間——後驗是先驗與資料的加權妥協。後驗變異數為

$$\operatorname{Var}[\theta \mid D] = \frac{\alpha' \beta'}{(\alpha'+\beta')^2 (\alpha'+\beta'+1)} = \frac{9 \times 5}{14^2 \times 15} = \frac{45}{2940} \approx 0.0153,$$

對應標準差約 $0.124$。後驗眾數（MAP 估計）為

$$\hat\theta_{\text{MAP}} = \frac{\alpha'-1}{\alpha'+\beta'-2} = \frac{8}{12} \approx 0.667.$$

若先驗改用無資訊的 $\text{Beta}(1,1)$（均勻分布），後驗變為 $\text{Beta}(8,4)$，後驗平均回到 $8/12 \approx 0.667$，更貼近資料。可見先驗的「強度」直接決定它在妥協中的話語權：資料越多，先驗影響越被稀釋。

統計素養提醒

後驗給出的是「在模型與先驗假設下，參數的機率信念」，而非客觀真理。$\text{Beta}(9,5)$ 的 $95\%$ 可信區間（credible interval）可直接解讀為「$\theta$ 有 $95\%$ 機率落在此區間」——這與頻率派信賴區間「重複抽樣下涵蓋率」的解讀截然不同，兩者不可混淆。同樣地，硬幣偏向正面是統計關聯，不能直接推論為某種物理因果；觀察到關聯仍需檢視機制與混淆因素。

深入探討（研究所視角）

把貝氏更新放進更大的推論版圖，會看到它與頻率派估計、漸近理論與現代機器學習的深層連結。

最大概似、動差法與貝氏的關係。 最大概似估計（MLE）$\hat\theta_{\text{MLE}} = \arg\max_\theta L(\theta)$ 在正則條件下具有一致性與漸近常態性：

$$\sqrt{n}\,(\hat\theta_{\text{MLE}} - \theta_0) \xrightarrow{d} \mathcal{N}\!\big(0,\ I(\theta_0)^{-1}\big),$$

其中 $I(\theta) = -\mathbb{E}\!\left[\frac{\partial^2 \log p(X\mid\theta)}{\partial \theta^2}\right]$ 為 Fisher 資訊，其倒數即 Cramér–Rao 下界。動差法（method of moments）則以樣本動差匹配理論動差求解，計算簡單但效率通常不如 MLE。貝氏的 MAP 估計可視為帶懲罰項的 MLE：$\hat\theta_{\text{MAP}} = \arg\max_\theta \big[\log L(\theta) + \log p(\theta)\big]$，當先驗趨於均勻時 MAP 收斂回 MLE。

Bernstein–von Mises 定理。 這是連接兩派的橋樑：在正則模型與固定真值 $\theta_0$ 下，當 $n \to \infty$，後驗分布漸近於以 MLE 為中心、變異數為 $I(\theta_0)^{-1}/n$ 的常態分布，且先驗的影響被洗去。形式上

$$p(\theta \mid D) \approx \mathcal{N}\!\big(\hat\theta_{\text{MLE}},\ [n I(\theta_0)]^{-1}\big).$$

其深刻含義是：大樣本下貝氏可信區間與頻率派信賴區間數值趨於一致，先驗的選擇僅在小樣本或高維時才舉足輕重。這也解釋了為何在資訊充足時，兩派常得到實務上相近的結論。

先驗的客觀化與正則化視角。 Jeffreys 先驗 $p(\theta) \propto \sqrt{\det I(\theta)}$ 在參數重新參數化下不變，是「無資訊先驗」的一種原則性選擇。從機器學習角度看，先驗即正則化：高斯先驗對應 L2（Ridge）懲罰、Laplace 先驗對應 L1（Lasso）懲罰，MAP 估計與正則化經驗風險最小化在數學上同構。這把貝氏推論與深度學習的權重衰減統一在同一框架下。

計算與前沿連結。 多數現實模型沒有共軛閉式解，需仰賴 MCMC（如 Hamiltonian Monte Carlo）或變分推論（variational inference）近似後驗，後者把推論轉化為最佳化問題，是貝氏深度學習與變分自編碼器（VAE）的核心。在因果推論中，貝氏框架可自然納入結構假設與先驗知識，對處理效果（treatment effect）的後驗分布做不確定性量化；但須謹記：再精緻的後驗也無法從純觀察資料憑空產生因果結論，識別性（identifiability）仰賴設計與假設，而非更新次數。貝氏更新給的是「在假設成立下信念如何隨證據演化」，假設本身的可信度仍須由科學論證與實驗設計來承擔。

← 上一篇

偽陽性之謎：用貝氏定理重新理解「已知一事」

--

1

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings