多重比較與偽發現率(FDR):從 FWER 到 Benjamini–Hochberg
當你同時做上千個檢定,如何在不錯失真實效應與不被假陽性淹沒之間取得可量化的平衡
從「為什麼做越多檢定越容易出錯」談起
當你在一張基因晶片上同時檢定兩萬個基因、或在一份問卷上同時比較數十個分組差異時,每個單一檢定看似都控制得很好,整體卻早已失控。直覺是這樣的:即使每次檢定都把型一錯誤率壓在 $\alpha = 0.05$,做了 $m$ 次彼此獨立的檢定後,至少出現一次假陽性的機率為
$$ 1 - (1-\alpha)^m, $$
當 $m = 100$ 時這個值已達 $1 - 0.95^{100} \approx 0.994$。換言之,幾乎篤定會誤判。多重比較問題的核心,就是要在「不錯失真實效應」與「不被一堆假陽性淹沒」之間取得可量化的平衡。傳統做法控制的是族系錯誤率(FWER),而現代高維資料分析則轉向更寬鬆、更有檢定力的偽發現率(FDR)。

兩種錯誤率:FWER 與 FDR 的形式定義
設我們同時檢定 $m$ 個虛無假設 $H_1, \dots, H_m$,其中 $m_0$ 個為真。檢定結果可整理成下表的計數(其中 $R$ 為被拒絕的總數,是可觀測的隨機變數,其餘為不可觀測):
| 未拒絕 | 拒絕 | 合計 | |
|---|---|---|---|
| $H$ 為真 | $U$ | $V$ | $m_0$ |
| $H$ 為偽 | $T$ | $S$ | $m_1$ |
| 合計 | $m-R$ | $R$ | $m$ |
其中 $V$ 是偽發現(假陽性)數。FWER 定義為至少犯一次型一錯誤的機率:
$$ \mathrm{FWER} = P(V \ge 1). $$
Bonferroni 校正用聯集界(union bound)控制它:令每個檢定的門檻為 $\alpha/m$,則
$$ \mathrm{FWER} = P\!\left(\bigcup_{i \in \mathcal{I}_0} \{p_i \le \alpha/m\}\right) \le \sum_{i \in \mathcal{I}_0} P(p_i \le \alpha/m) = m_0 \cdot \frac{\alpha}{m} \le \alpha, $$
其中 $\mathcal{I}_0$ 為真虛無的指標集。這個界對任意相依結構都成立,但代價是當 $m$ 很大時門檻過嚴,檢定力急遽下降。
Benjamini 與 Hochberg(1995)提出改控制 FDR,即被拒絕假設中偽發現所佔比例的期望值:
$$ \mathrm{FDR} = \mathbb{E}\!\left[\frac{V}{\max(R,1)}\right] = \mathbb{E}\!\left[\frac{V}{R}\,\middle|\, R>0\right] P(R>0). $$
分母用 $\max(R,1)$ 是為了在 $R=0$ 時讓比值定義為 $0$。FDR 控制的是「錯誤發現的期望比例」而非「出現任一錯誤的機率」,因此容許在大量真發現中夾帶少量假陽性,換得遠高於 FWER 程序的檢定力。
Benjamini–Hochberg 程序
將 $m$ 個 p 值由小到大排序為 $p_{(1)} \le p_{(2)} \le \dots \le p_{(m)}$。找出最大的指標 $k$ 使得
$$ p_{(k)} \le \frac{k}{m}\,\alpha, $$
然後拒絕對應於 $p_{(1)}, \dots, p_{(k)}$ 的所有假設。其精神是:第 $k$ 小的 p 值若被拒絕,意味著我們宣告了約 $k$ 個發現,而期望中的假陽性約為 $m_0 \cdot p_{(k)} \le m \cdot p_{(k)}$,要求偽發現比例 $\le \alpha$ 自然推得門檻 $p_{(k)} \le k\alpha/m$。
關鍵定理(BH 1995):若各檢定統計量在虛無下相互獨立(或滿足 PRDS 正相依條件,Benjamini–Yekutieli 2001),則 BH 程序保證
$$ \mathrm{FDR} = \frac{m_0}{m}\,\alpha \le \alpha. $$
注意 FDR 實際被控制在 $\frac{m_0}{m}\alpha$,比 $\alpha$ 更嚴——這正暗示若能估計真虛無比例 $\pi_0 = m_0/m$,便可把門檻放寬為 $\alpha/\hat\pi_0$ 以提升檢定力,這就是 Storey(2002)的 q 值與自適應方法的出發點。
定量小範例
假設我們檢定 $m=10$ 個假設,取 $\alpha = 0.05$,將 p 值排序如下,並逐一計算 BH 門檻 $\frac{k}{m}\alpha = 0.005k$:
| $k$ | $p_{(k)}$ | $\frac{k}{m}\alpha$ | $p_{(k)} \le$ 門檻? |
|---|---|---|---|
| 1 | 0.001 | 0.005 | ✅ |
| 2 | 0.008 | 0.010 | ✅ |
| 3 | 0.012 | 0.015 | ✅ |
| 4 | 0.021 | 0.020 | ❌ |
| 5 | 0.030 | 0.025 | ❌ |
| 6 | 0.039 | 0.030 | ❌ |
| 7 | 0.040 | 0.035 | ❌ |
| 8 | 0.045 | 0.040 | ❌ |
| 9 | 0.060 | 0.045 | ❌ |
| 10 | 0.500 | 0.050 | ❌ |
BH 程序找最大滿足條件的 $k$。雖然 $k=4$ 失敗,但我們不能就此停手——要掃完全表。本例中最大滿足者是 $k=3$($0.012 \le 0.015$),因此拒絕 $p_{(1)}, p_{(2)}, p_{(3)}$ 共三個假設。
對照之下,Bonferroni 門檻為 $\alpha/m = 0.005$,僅 $p_{(1)}=0.001$ 通過,只能拒絕一個。可見 FDR 在同等錯誤控制哲學下保留了更多發現。若進一步計算 q 值,$q_{(k)} = \min_{j \ge k} \frac{m\, p_{(j)}}{j}$,則 $p_{(3)}=0.012$ 對應的 q 值約為 $\min(\ldots, \frac{10 \times 0.012}{3}, \ldots) = 0.04$,可解讀為「在這個拒絕門檻下,預期偽發現比例約 4%」。
機制要點與素養提醒
FDR 是一個期望比例,並非保證單次實驗中假陽性恰好低於 $\alpha$;某一次分析的實際偽發現比例仍可能偏高,只是長期平均受控。其次,p 值門檻調整改變的是「宣告發現」的標準,並不改變每個效應的真假——通過 BH 的基因仍需後續實驗驗證,更不能因為某項比較「顯著」就推論因果。最後,多重比較校正解決的是統計顯著性的膨脹,無法救回設計上的混淆變項:相關不等於因果,這條紅線在高維篩選後反而更該謹記,因為大量自動產生的「顯著關聯」極易誘導過度解讀。
深入探討(研究所視角)
從漸近理論看,FDR 控制可被重新表述為一個經驗過程問題。定義經驗分布 $\hat F(t) = \frac{1}{m}\sum_i \mathbf{1}\{p_i \le t\}$,在虛無下 p 值服從 $\mathrm{Uniform}(0,1)$,故真虛無對 $\hat F$ 的貢獻漸近於 $\pi_0 t$。於是在門檻 $t$ 下,偽發現比例的估計量為
$$ \widehat{\mathrm{FDR}}(t) = \frac{\hat\pi_0\, m\, t}{\#\{p_i \le t\}} = \frac{\hat\pi_0\, t}{\hat F(t)}. $$
Storey、Taylor 與 Siegmund(2004)證明此估計量在 $m \to \infty$ 下具一致性與漸近常態性,其收斂率為 $\sqrt{m}$,並可建構 FDR 的信賴帶。$\pi_0$ 的估計本身是一個半參數問題:Storey 的 $\hat\pi_0(\lambda) = \frac{\#\{p_i > \lambda\}}{m(1-\lambda)}$ 利用「大 p 值區域幾乎全是虛無」這個動差式直覺(method of moments 的精神),在 $\lambda \to 1$ 時偏誤趨零但變異數放大,故需 spline 平滑或 bootstrap 取得偏誤—變異數的最適折衷。
更一般地,多重檢定可放進雙組分混合模型(two-groups model):每個檢定統計量的邊際密度為 $f(z) = \pi_0 f_0(z) + \pi_1 f_1(z)$,其中 $f_0$ 是虛無密度、$f_1$ 是替代密度。此時 Efron 的局部偽發現率 $\mathrm{fdr}(z) = \pi_0 f_0(z) / f(z)$ 恰好是貝氏後驗機率 $P(H_0 \mid Z=z)$,把頻率派的 FDR 與貝氏推論優雅地接通——這也是「empirical Bayes」之名的由來:先驗 $\pi_0$ 與替代密度 $f_1$ 皆從資料本身估計。最大概似估計可用於參數化 $f_1$(如常態混合),而 $f_0$ 在大規模檢定中有時需「經驗虛無」修正,因為理論上的 $N(0,1)$ 常因相依或未建模的變異而過窄。
與機器學習的連結近年尤為活躍。Barber 與 Candès(2015)的 knockoff filter 不依賴 p 值,而是構造「仿冒變項」作為負控制,在有限樣本下嚴格控制 FDR,可直接套用於高維迴歸的變項選擇,與 Lasso 等正則化方法相容。在因果推論中,當研究者同時估計多個處理效應或進行多重子群分析時,FDR 校正可防止「資料探勘出來的異質性」被誤認為真實的調節效應;conformal inference 亦借用類似的交換性(exchangeability)論證提供分布無關的覆蓋保證。這些前沿方法共同揭示一個深層觀點:多重比較不只是「事後打折扣」,而是把「同時推論的不確定性」內建進估計程序本身——從 Bonferroni 的最壞情況界,到 BH 的期望控制,再到 knockoff 的有限樣本構造,反映的是統計學對「規模」這件事日益精緻的理解。