貝氏學派與頻率學派之爭：兩種機率語法的推導與對偶

從共軛後驗、信賴區間到漸近一致，看兩派如何在同一筆資料上殊途同歸

進階 · 約 11 分鐘 ·#貝氏推論#頻率學派#信賴區間#最大概似#共軛先驗#統計素養

從同一筆資料、兩種「機率」說起

給定一枚硬幣、十次投擲、七次正面，問「正面機率」是多少？頻率學派與貝氏學派會給你形式上相近、哲學上卻南轅北轍的答案。爭論的根源不在算術，而在「機率」這個詞指的是什麼：是長程相對頻率，還是對未知量的信念程度。理解這場爭論，等於理解現代統計推論兩套並行的語法。

頻率學派把參數 $\theta$ 視為固定但未知的常數，隨機性只存在於資料 $X$；機率是「在無限次重複抽樣下事件發生的極限頻率」。貝氏學派則把 $\theta$ 本身當作隨機變數，用機率分布刻畫我們對它的不確定性，並透過資料更新這個分布。兩者都從同一個概似函數 $L(\theta)=p(x\mid\theta)$ 出發，卻在「$\theta$ 能不能有機率分布」這一點上分道揚鑣。

貝氏學派與頻率學派之爭概念示意圖

貝氏更新：從先驗到後驗的代數

貝氏推論的引擎是貝氏定理。對參數 $\theta$ 與資料 $x$：

$$ p(\theta \mid x) = \frac{p(x \mid \theta)\, p(\theta)}{p(x)}, \qquad p(x)=\int p(x\mid\theta)\,p(\theta)\,d\theta . $$

其中 $p(\theta)$ 是先驗（prior），$p(x\mid\theta)$ 是概似，$p(\theta\mid x)$ 是後驗（posterior），分母 $p(x)$ 是邊際概似（marginal likelihood）。由於 $p(x)$ 不依賴 $\theta$，常寫成正比形式：

$$ p(\theta \mid x) \propto p(x\mid\theta)\,p(\theta). $$

以 Beta–Binomial 為例。設 $n$ 次獨立試驗中成功 $k$ 次，概似為 $\binom{n}{k}\theta^{k}(1-\theta)^{n-k}$。取共軛先驗 $\theta\sim\mathrm{Beta}(\alpha,\beta)$，其密度 $\propto \theta^{\alpha-1}(1-\theta)^{\beta-1}$。後驗為：

$$ p(\theta\mid k)\propto \theta^{k}(1-\theta)^{n-k}\cdot\theta^{\alpha-1}(1-\theta)^{\beta-1}=\theta^{k+\alpha-1}(1-\theta)^{n-k+\beta-1}, $$

正是 $\mathrm{Beta}(\alpha+k,\ \beta+n-k)$。先驗與後驗同屬一族，這就是共軛性。後驗均數為：

$$ \mathbb{E}[\theta\mid k]=\frac{\alpha+k}{\alpha+\beta+n}, $$

可改寫成先驗均數與最大概似估計（MLE）$\hat\theta=k/n$ 的加權平均，權重隨樣本數 $n$ 增大而向資料傾斜。這量化了「先驗在資料充足時被沖淡」的直覺。

頻率學派：信賴區間與抽樣分布

頻率學派不對 $\theta$ 給機率，而是建構在重複抽樣下具有保證覆蓋率的程序。一個 $95\%$ 信賴區間 $[L(X),U(X)]$ 的定義是：

$$ \Pr_{\theta}\big(L(X)\le \theta \le U(X)\big)=0.95 \quad \text{對所有 }\theta. $$

關鍵在於這裡的機率是對「隨機區間」取的，而非對 $\theta$。一旦觀測到具體資料、算出具體區間 $[0.42,0.58]$，$\theta$ 要嘛在裡面要嘛不在，已無機率可言；$95\%$ 描述的是「程序」在長程下的覆蓋表現。把它讀成「$\theta$ 有 $95\%$ 機率落在此區間」是常見的素養錯誤——那是後驗可信區間（credible interval）的詮釋，屬於貝氏。

同理，$p$ 值是「假設虛無為真時，觀測到等於或更極端統計量的機率」$\Pr(T\ge t\mid H_0)$，它不是「$H_0$ 為真的機率」，更不是「結果由運氣造成的機率」。混淆 $\Pr(\text{data}\mid H_0)$ 與 $\Pr(H_0\mid \text{data})$，正是檢定誤判的核心，後者需要先驗才能算。

定量小範例：先驗有多大影響

設某新藥反應率 $\theta$，臨床觀測 $n=10$、成功 $k=7$。

頻率估計：$\hat\theta=7/10=0.7$，標準誤 $\sqrt{\hat\theta(1-\hat\theta)/n}=\sqrt{0.21/10}\approx0.145$，Wald 區間約 $0.7\pm1.96\times0.145=[0.416,0.984]$。

貝氏估計（取均勻先驗 $\mathrm{Beta}(1,1)$）：後驗為 $\mathrm{Beta}(1+7,1+3)=\mathrm{Beta}(8,4)$，後驗均數

$$ \mathbb{E}[\theta\mid k]=\frac{8}{8+4}=\frac{8}{12}\approx0.667. $$

若改用偏向無效的先驗 $\mathrm{Beta}(2,8)$（先驗均數 $0.2$），後驗為 $\mathrm{Beta}(9,11)$，均數 $9/20=0.45$。同一筆資料，先驗從中性換成保守，點估計由 $0.667$ 掉到 $0.45$。這既是貝氏的力量（能正式納入先前證據），也是其風險（先驗選擇須透明、可被檢驗）。素養重點：不要把相關證據當成因果結論——觀測到高反應率不等於藥物導致反應，仍需設計上的對照。

兩派為何必要：偏誤、收斂與共識

當 $n\to\infty$，在溫和條件下後驗會集中於真值，且 MLE 與後驗均數的差異是 $O(1/n)$，先驗影響消失，這由 Bernstein–von Mises 定理保證——兩派在大樣本下趨於一致。爭論真正咬合處在小樣本、強先驗、或無法重複抽樣的單一事件（如「這次選舉」）。頻率語言在可重複的品管、隨機試驗中清晰；貝氏語言在動態更新、罕見事件、需融合既有知識的決策中自然。成熟的統計實務不是選邊，而是知道每種陳述「機率」指涉什麼，並據此選用工具。

深入探討（研究所視角）

把兩派放進估計理論的統一框架，可看到更深的對偶。頻率端的核心是估計量的漸近性質：在正則條件下 MLE $\hat\theta_n$ 滿足一致性與漸近常態

$$ \sqrt{n}\,(\hat\theta_n-\theta_0)\ \xrightarrow{d}\ \mathcal{N}\!\big(0,\ I(\theta_0)^{-1}\big), $$

其中 $I(\theta)=-\mathbb{E}\big[\partial^2 \log p(X\mid\theta)/\partial\theta^2\big]$ 為 Fisher 訊息。Cramér–Rao 下界 $\mathrm{Var}(\hat\theta)\ge I(\theta)^{-1}$ 說明 MLE 漸近達到效率上限。動差法（Method of Moments）則以樣本動差等同理論動差解出參數，計算簡便但通常效率低於 MLE，常作為迭代演算法的起始值。

貝氏端與之對偶。Bernstein–von Mises 定理指出，在正則模型下後驗分布漸近為 $\mathcal{N}(\hat\theta_n,\ I(\theta_0)^{-1}/n)$——後驗的形狀與 MLE 的抽樣分布重合。於是大樣本時，$95\%$ 可信區間與 $95\%$ 信賴區間數值上幾乎相同，儘管詮釋仍然不同。這解釋了為何實務上兩派常給出近似結論：差異是哲學與小樣本的，不是漸近的。

模型選擇進一步揭示張力。頻率端用 AIC $=-2\log L(\hat\theta)+2k$ 懲罰參數數量；貝氏端用邊際概似 $p(x)=\int p(x\mid\theta)p(\theta)d\theta$ 與 BIC $=-2\log L(\hat\theta)+k\log n$ 近似。值得注意的是邊際概似自帶 Occam 剃刀：過度複雜的模型把先驗質量攤薄在大參數空間，反而降低 $p(x)$，這是貝氏框架內建的複雜度懲罰，無需外加項。

與機器學習的連結尤為直接。$\ell_2$ 正則化（ridge）等價於高斯先驗下的最大後驗估計（MAP），$\ell_1$（lasso）等價於拉普拉斯先驗：

$$ \hat\theta_{\mathrm{MAP}}=\arg\max_\theta\ \log p(x\mid\theta)+\log p(\theta), $$

其中第二項正是正則化罰則。高斯過程、變分推論、Dropout 的貝氏詮釋，皆把「正則化」重述為「先驗」。而頻率派的交叉驗證則用樣本外風險逼近泛化誤差，兩者殊途同歸地對抗過擬合。

最後是因果推論。無論哪派，識別因果效應靠的是設計與假設（隨機化、可忽略性、工具變數），而非機率語法本身——這呼應素養底線：相關不蘊含因果。當代趨勢是融合，例如貝氏階層模型處理多中心試驗的部分匯聚（partial pooling），同時提供頻率派的覆蓋率診斷。研究所層級的成熟度，正在於能在同一問題上自由切換兩種語言，並清楚每一句「機率」陳述的可被驗證內涵。

← 上一篇

p 值爭議與再現性危機：從機率機制看顯著性的崩塌

倖存者偏差與基率謬誤：選擇性條件化的數學機制

--

1

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings