多重比較與偽發現率（FDR）：從 FWER 到 Benjamini–Hochberg

當你同時做上千個檢定，如何在不錯失真實效應與不被假陽性淹沒之間取得可量化的平衡

進階 · 約 12 分鐘 ·#偽發現率#多重比較#假設檢定#Benjamini-Hochberg#FWER#經驗貝氏

從「為什麼做越多檢定越容易出錯」談起

當你在一張基因晶片上同時檢定兩萬個基因、或在一份問卷上同時比較數十個分組差異時，每個單一檢定看似都控制得很好，整體卻早已失控。直覺是這樣的：即使每次檢定都把型一錯誤率壓在 $\alpha = 0.05$，做了 $m$ 次彼此獨立的檢定後，至少出現一次假陽性的機率為

$$ 1 - (1-\alpha)^m, $$

當 $m = 100$ 時這個值已達 $1 - 0.95^{100} \approx 0.994$。換言之，幾乎篤定會誤判。多重比較問題的核心，就是要在「不錯失真實效應」與「不被一堆假陽性淹沒」之間取得可量化的平衡。傳統做法控制的是族系錯誤率（FWER），而現代高維資料分析則轉向更寬鬆、更有檢定力的偽發現率（FDR）。

多重比較與偽發現率（FDR）概念示意圖

兩種錯誤率：FWER 與 FDR 的形式定義

設我們同時檢定 $m$ 個虛無假設 $H_1, \dots, H_m$，其中 $m_0$ 個為真。檢定結果可整理成下表的計數（其中 $R$ 為被拒絕的總數，是可觀測的隨機變數，其餘為不可觀測）：

	未拒絕	拒絕	合計
$H$ 為真	$U$	$V$	$m_0$
$H$ 為偽	$T$	$S$	$m_1$
合計	$m-R$	$R$	$m$

其中 $V$ 是偽發現（假陽性）數。FWER 定義為至少犯一次型一錯誤的機率：

$$ \mathrm{FWER} = P(V \ge 1). $$

Bonferroni 校正用聯集界（union bound）控制它：令每個檢定的門檻為 $\alpha/m$，則

$$ \mathrm{FWER} = P\!\left(\bigcup_{i \in \mathcal{I}_0} \{p_i \le \alpha/m\}\right) \le \sum_{i \in \mathcal{I}_0} P(p_i \le \alpha/m) = m_0 \cdot \frac{\alpha}{m} \le \alpha, $$

其中 $\mathcal{I}_0$ 為真虛無的指標集。這個界對任意相依結構都成立，但代價是當 $m$ 很大時門檻過嚴，檢定力急遽下降。

Benjamini 與 Hochberg（1995）提出改控制 FDR，即被拒絕假設中偽發現所佔比例的期望值：

$$ \mathrm{FDR} = \mathbb{E}\!\left[\frac{V}{\max(R,1)}\right] = \mathbb{E}\!\left[\frac{V}{R}\,\middle|\, R>0\right] P(R>0). $$

分母用 $\max(R,1)$ 是為了在 $R=0$ 時讓比值定義為 $0$。FDR 控制的是「錯誤發現的期望比例」而非「出現任一錯誤的機率」，因此容許在大量真發現中夾帶少量假陽性，換得遠高於 FWER 程序的檢定力。

Benjamini–Hochberg 程序

將 $m$ 個 p 值由小到大排序為 $p_{(1)} \le p_{(2)} \le \dots \le p_{(m)}$。找出最大的指標 $k$ 使得

$$ p_{(k)} \le \frac{k}{m}\,\alpha, $$

然後拒絕對應於 $p_{(1)}, \dots, p_{(k)}$ 的所有假設。其精神是：第 $k$ 小的 p 值若被拒絕，意味著我們宣告了約 $k$ 個發現，而期望中的假陽性約為 $m_0 \cdot p_{(k)} \le m \cdot p_{(k)}$，要求偽發現比例 $\le \alpha$ 自然推得門檻 $p_{(k)} \le k\alpha/m$。

關鍵定理（BH 1995）：若各檢定統計量在虛無下相互獨立（或滿足 PRDS 正相依條件，Benjamini–Yekutieli 2001），則 BH 程序保證

$$ \mathrm{FDR} = \frac{m_0}{m}\,\alpha \le \alpha. $$

注意 FDR 實際被控制在 $\frac{m_0}{m}\alpha$，比 $\alpha$ 更嚴——這正暗示若能估計真虛無比例 $\pi_0 = m_0/m$，便可把門檻放寬為 $\alpha/\hat\pi_0$ 以提升檢定力，這就是 Storey（2002）的 q 值與自適應方法的出發點。

定量小範例

假設我們檢定 $m=10$ 個假設，取 $\alpha = 0.05$，將 p 值排序如下，並逐一計算 BH 門檻 $\frac{k}{m}\alpha = 0.005k$：

$k$	$p_{(k)}$	$\frac{k}{m}\alpha$	$p_{(k)} \le$ 門檻？
1	0.001	0.005	✅
2	0.008	0.010	✅
3	0.012	0.015	✅
4	0.021	0.020	❌
5	0.030	0.025	❌
6	0.039	0.030	❌
7	0.040	0.035	❌
8	0.045	0.040	❌
9	0.060	0.045	❌
10	0.500	0.050	❌

BH 程序找最大滿足條件的 $k$。雖然 $k=4$ 失敗，但我們不能就此停手——要掃完全表。本例中最大滿足者是 $k=3$（$0.012 \le 0.015$），因此拒絕 $p_{(1)}, p_{(2)}, p_{(3)}$ 共三個假設。

對照之下，Bonferroni 門檻為 $\alpha/m = 0.005$，僅 $p_{(1)}=0.001$ 通過，只能拒絕一個。可見 FDR 在同等錯誤控制哲學下保留了更多發現。若進一步計算 q 值，$q_{(k)} = \min_{j \ge k} \frac{m\, p_{(j)}}{j}$，則 $p_{(3)}=0.012$ 對應的 q 值約為 $\min(\ldots, \frac{10 \times 0.012}{3}, \ldots) = 0.04$，可解讀為「在這個拒絕門檻下，預期偽發現比例約 4%」。

機制要點與素養提醒

FDR 是一個期望比例，並非保證單次實驗中假陽性恰好低於 $\alpha$；某一次分析的實際偽發現比例仍可能偏高，只是長期平均受控。其次，p 值門檻調整改變的是「宣告發現」的標準，並不改變每個效應的真假——通過 BH 的基因仍需後續實驗驗證，更不能因為某項比較「顯著」就推論因果。最後，多重比較校正解決的是統計顯著性的膨脹，無法救回設計上的混淆變項：相關不等於因果，這條紅線在高維篩選後反而更該謹記，因為大量自動產生的「顯著關聯」極易誘導過度解讀。

深入探討（研究所視角）

從漸近理論看，FDR 控制可被重新表述為一個經驗過程問題。定義經驗分布 $\hat F(t) = \frac{1}{m}\sum_i \mathbf{1}\{p_i \le t\}$，在虛無下 p 值服從 $\mathrm{Uniform}(0,1)$，故真虛無對 $\hat F$ 的貢獻漸近於 $\pi_0 t$。於是在門檻 $t$ 下，偽發現比例的估計量為

$$ \widehat{\mathrm{FDR}}(t) = \frac{\hat\pi_0\, m\, t}{\#\{p_i \le t\}} = \frac{\hat\pi_0\, t}{\hat F(t)}. $$

Storey、Taylor 與 Siegmund（2004）證明此估計量在 $m \to \infty$ 下具一致性與漸近常態性，其收斂率為 $\sqrt{m}$，並可建構 FDR 的信賴帶。$\pi_0$ 的估計本身是一個半參數問題：Storey 的 $\hat\pi_0(\lambda) = \frac{\#\{p_i > \lambda\}}{m(1-\lambda)}$ 利用「大 p 值區域幾乎全是虛無」這個動差式直覺（method of moments 的精神），在 $\lambda \to 1$ 時偏誤趨零但變異數放大，故需 spline 平滑或 bootstrap 取得偏誤—變異數的最適折衷。

更一般地，多重檢定可放進雙組分混合模型（two-groups model）：每個檢定統計量的邊際密度為 $f(z) = \pi_0 f_0(z) + \pi_1 f_1(z)$，其中 $f_0$ 是虛無密度、$f_1$ 是替代密度。此時 Efron 的局部偽發現率 $\mathrm{fdr}(z) = \pi_0 f_0(z) / f(z)$ 恰好是貝氏後驗機率 $P(H_0 \mid Z=z)$，把頻率派的 FDR 與貝氏推論優雅地接通——這也是「empirical Bayes」之名的由來：先驗 $\pi_0$ 與替代密度 $f_1$ 皆從資料本身估計。最大概似估計可用於參數化 $f_1$（如常態混合），而 $f_0$ 在大規模檢定中有時需「經驗虛無」修正，因為理論上的 $N(0,1)$ 常因相依或未建模的變異而過窄。

與機器學習的連結近年尤為活躍。Barber 與 Candès（2015）的 knockoff filter 不依賴 p 值，而是構造「仿冒變項」作為負控制，在有限樣本下嚴格控制 FDR，可直接套用於高維迴歸的變項選擇，與 Lasso 等正則化方法相容。在因果推論中，當研究者同時估計多個處理效應或進行多重子群分析時，FDR 校正可防止「資料探勘出來的異質性」被誤認為真實的調節效應；conformal inference 亦借用類似的交換性（exchangeability）論證提供分布無關的覆蓋保證。這些前沿方法共同揭示一個深層觀點：多重比較不只是「事後打折扣」，而是把「同時推論的不確定性」內建進估計程序本身——從 Bonferroni 的最壞情況界，到 BH 的期望控制，再到 knockoff 的有限樣本構造，反映的是統計學對「規模」這件事日益精緻的理解。

← 上一篇

檢定力、效果量與樣本數規劃：從非中心參數到研究設計

--

1

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings