貝氏學派與頻率學派之爭:兩種機率語法的推導與對偶
從共軛後驗、信賴區間到漸近一致,看兩派如何在同一筆資料上殊途同歸
從同一筆資料、兩種「機率」說起
給定一枚硬幣、十次投擲、七次正面,問「正面機率」是多少?頻率學派與貝氏學派會給你形式上相近、哲學上卻南轅北轍的答案。爭論的根源不在算術,而在「機率」這個詞指的是什麼:是長程相對頻率,還是對未知量的信念程度。理解這場爭論,等於理解現代統計推論兩套並行的語法。
頻率學派把參數 $\theta$ 視為固定但未知的常數,隨機性只存在於資料 $X$;機率是「在無限次重複抽樣下事件發生的極限頻率」。貝氏學派則把 $\theta$ 本身當作隨機變數,用機率分布刻畫我們對它的不確定性,並透過資料更新這個分布。兩者都從同一個概似函數 $L(\theta)=p(x\mid\theta)$ 出發,卻在「$\theta$ 能不能有機率分布」這一點上分道揚鑣。

貝氏更新:從先驗到後驗的代數
貝氏推論的引擎是貝氏定理。對參數 $\theta$ 與資料 $x$:
$$ p(\theta \mid x) = \frac{p(x \mid \theta)\, p(\theta)}{p(x)}, \qquad p(x)=\int p(x\mid\theta)\,p(\theta)\,d\theta . $$
其中 $p(\theta)$ 是先驗(prior),$p(x\mid\theta)$ 是概似,$p(\theta\mid x)$ 是後驗(posterior),分母 $p(x)$ 是邊際概似(marginal likelihood)。由於 $p(x)$ 不依賴 $\theta$,常寫成正比形式:
$$ p(\theta \mid x) \propto p(x\mid\theta)\,p(\theta). $$
以 Beta–Binomial 為例。設 $n$ 次獨立試驗中成功 $k$ 次,概似為 $\binom{n}{k}\theta^{k}(1-\theta)^{n-k}$。取共軛先驗 $\theta\sim\mathrm{Beta}(\alpha,\beta)$,其密度 $\propto \theta^{\alpha-1}(1-\theta)^{\beta-1}$。後驗為:
$$ p(\theta\mid k)\propto \theta^{k}(1-\theta)^{n-k}\cdot\theta^{\alpha-1}(1-\theta)^{\beta-1}=\theta^{k+\alpha-1}(1-\theta)^{n-k+\beta-1}, $$
正是 $\mathrm{Beta}(\alpha+k,\ \beta+n-k)$。先驗與後驗同屬一族,這就是共軛性。後驗均數為:
$$ \mathbb{E}[\theta\mid k]=\frac{\alpha+k}{\alpha+\beta+n}, $$
可改寫成先驗均數與最大概似估計(MLE)$\hat\theta=k/n$ 的加權平均,權重隨樣本數 $n$ 增大而向資料傾斜。這量化了「先驗在資料充足時被沖淡」的直覺。
頻率學派:信賴區間與抽樣分布
頻率學派不對 $\theta$ 給機率,而是建構在重複抽樣下具有保證覆蓋率的程序。一個 $95\%$ 信賴區間 $[L(X),U(X)]$ 的定義是:
$$ \Pr_{\theta}\big(L(X)\le \theta \le U(X)\big)=0.95 \quad \text{對所有 }\theta. $$
關鍵在於這裡的機率是對「隨機區間」取的,而非對 $\theta$。一旦觀測到具體資料、算出具體區間 $[0.42,0.58]$,$\theta$ 要嘛在裡面要嘛不在,已無機率可言;$95\%$ 描述的是「程序」在長程下的覆蓋表現。把它讀成「$\theta$ 有 $95\%$ 機率落在此區間」是常見的素養錯誤——那是後驗可信區間(credible interval)的詮釋,屬於貝氏。
同理,$p$ 值是「假設虛無為真時,觀測到等於或更極端統計量的機率」$\Pr(T\ge t\mid H_0)$,它不是「$H_0$ 為真的機率」,更不是「結果由運氣造成的機率」。混淆 $\Pr(\text{data}\mid H_0)$ 與 $\Pr(H_0\mid \text{data})$,正是檢定誤判的核心,後者需要先驗才能算。
定量小範例:先驗有多大影響
設某新藥反應率 $\theta$,臨床觀測 $n=10$、成功 $k=7$。
頻率估計:$\hat\theta=7/10=0.7$,標準誤 $\sqrt{\hat\theta(1-\hat\theta)/n}=\sqrt{0.21/10}\approx0.145$,Wald 區間約 $0.7\pm1.96\times0.145=[0.416,0.984]$。
貝氏估計(取均勻先驗 $\mathrm{Beta}(1,1)$):後驗為 $\mathrm{Beta}(1+7,1+3)=\mathrm{Beta}(8,4)$,後驗均數
$$ \mathbb{E}[\theta\mid k]=\frac{8}{8+4}=\frac{8}{12}\approx0.667. $$
若改用偏向無效的先驗 $\mathrm{Beta}(2,8)$(先驗均數 $0.2$),後驗為 $\mathrm{Beta}(9,11)$,均數 $9/20=0.45$。同一筆資料,先驗從中性換成保守,點估計由 $0.667$ 掉到 $0.45$。這既是貝氏的力量(能正式納入先前證據),也是其風險(先驗選擇須透明、可被檢驗)。素養重點:不要把相關證據當成因果結論——觀測到高反應率不等於藥物導致反應,仍需設計上的對照。
兩派為何必要:偏誤、收斂與共識
當 $n\to\infty$,在溫和條件下後驗會集中於真值,且 MLE 與後驗均數的差異是 $O(1/n)$,先驗影響消失,這由 Bernstein–von Mises 定理保證——兩派在大樣本下趨於一致。爭論真正咬合處在小樣本、強先驗、或無法重複抽樣的單一事件(如「這次選舉」)。頻率語言在可重複的品管、隨機試驗中清晰;貝氏語言在動態更新、罕見事件、需融合既有知識的決策中自然。成熟的統計實務不是選邊,而是知道每種陳述「機率」指涉什麼,並據此選用工具。
深入探討(研究所視角)
把兩派放進估計理論的統一框架,可看到更深的對偶。頻率端的核心是估計量的漸近性質:在正則條件下 MLE $\hat\theta_n$ 滿足一致性與漸近常態
$$ \sqrt{n}\,(\hat\theta_n-\theta_0)\ \xrightarrow{d}\ \mathcal{N}\!\big(0,\ I(\theta_0)^{-1}\big), $$
其中 $I(\theta)=-\mathbb{E}\big[\partial^2 \log p(X\mid\theta)/\partial\theta^2\big]$ 為 Fisher 訊息。Cramér–Rao 下界 $\mathrm{Var}(\hat\theta)\ge I(\theta)^{-1}$ 說明 MLE 漸近達到效率上限。動差法(Method of Moments)則以樣本動差等同理論動差解出參數,計算簡便但通常效率低於 MLE,常作為迭代演算法的起始值。
貝氏端與之對偶。Bernstein–von Mises 定理指出,在正則模型下後驗分布漸近為 $\mathcal{N}(\hat\theta_n,\ I(\theta_0)^{-1}/n)$——後驗的形狀與 MLE 的抽樣分布重合。於是大樣本時,$95\%$ 可信區間與 $95\%$ 信賴區間數值上幾乎相同,儘管詮釋仍然不同。這解釋了為何實務上兩派常給出近似結論:差異是哲學與小樣本的,不是漸近的。
模型選擇進一步揭示張力。頻率端用 AIC $=-2\log L(\hat\theta)+2k$ 懲罰參數數量;貝氏端用邊際概似 $p(x)=\int p(x\mid\theta)p(\theta)d\theta$ 與 BIC $=-2\log L(\hat\theta)+k\log n$ 近似。值得注意的是邊際概似自帶 Occam 剃刀:過度複雜的模型把先驗質量攤薄在大參數空間,反而降低 $p(x)$,這是貝氏框架內建的複雜度懲罰,無需外加項。
與機器學習的連結尤為直接。$\ell_2$ 正則化(ridge)等價於高斯先驗下的最大後驗估計(MAP),$\ell_1$(lasso)等價於拉普拉斯先驗:
$$ \hat\theta_{\mathrm{MAP}}=\arg\max_\theta\ \log p(x\mid\theta)+\log p(\theta), $$
其中第二項正是正則化罰則。高斯過程、變分推論、Dropout 的貝氏詮釋,皆把「正則化」重述為「先驗」。而頻率派的交叉驗證則用樣本外風險逼近泛化誤差,兩者殊途同歸地對抗過擬合。
最後是因果推論。無論哪派,識別因果效應靠的是設計與假設(隨機化、可忽略性、工具變數),而非機率語法本身——這呼應素養底線:相關不蘊含因果。當代趨勢是融合,例如貝氏階層模型處理多中心試驗的部分匯聚(partial pooling),同時提供頻率派的覆蓋率診斷。研究所層級的成熟度,正在於能在同一問題上自由切換兩種語言,並清楚每一句「機率」陳述的可被驗證內涵。