p 值爭議與再現性危機：從機率機制看顯著性的崩塌

為什麼 0.05 的門檻會系統性地製造假陽性，以及統計學家如何用漸近理論、貝氏因子與選擇性推論來修補

進階 · 約 12 分鐘 ·#p值#再現性危機#假發現率#統計檢力#貝氏因子#統計素養

為什麼一個 0.05 能掀起一場危機

當一篇論文寫下「$p < 0.05$，結果顯著」，許多讀者會直覺地把它讀成「假設為真的機率很高」或「這個效應是真的」。但這兩種解讀都錯了。p 值爭議與再現性危機的核心，正是這層集體的誤讀——再加上一整套科學發表制度，把「顯著」變成了通往發表的門票。要理解這場危機為何在統計學上不可避免，我們必須回到 p 值的精確定義，並從機率機制推導出它在實務中如何系統性地誤導。

p 值爭議與再現性危機概念示意圖

p 值的精確定義與常見誤解

設我們檢定虛無假設 $H_0$，檢定統計量為 $T$，觀測值為 $t_{\text{obs}}$。p 值定義為：在 $H_0$ 為真的前提下，得到「與觀測值一樣極端或更極端」之統計量的機率：

$$p = \Pr(T \ge t_{\text{obs}} \mid H_0) \quad (\text{單尾})$$

關鍵在於這是一個條件機率 $\Pr(\text{data} \mid H_0)$，而非後驗機率 $\Pr(H_0 \mid \text{data})$。兩者透過貝氏定理相連：

$$\Pr(H_0 \mid \text{data}) = \frac{\Pr(\text{data} \mid H_0)\,\Pr(H_0)}{\Pr(\text{data})}$$

由於右側涉及先驗 $\Pr(H_0)$ 與邊際概似 $\Pr(\text{data})$，p 值本身無法告訴你假設為真的機率。把 $p=0.03$ 讀成「$H_0$ 只有 3% 的機會成立」是典型的檢察官謬誤（prosecutor's fallacy）。

一個常被忽略的數學事實是：當 $H_0$ 為真且檢定統計量連續時，p 值服從 $[0,1]$ 上的均勻分布。證明很簡潔：令 $F$ 為 $T$ 在 $H_0$ 下的累積分布函數，$p = 1 - F(T)$。對任意 $u \in [0,1]$，

$$\Pr(p \le u) = \Pr\big(1 - F(T) \le u\big) = \Pr\big(F(T) \ge 1-u\big) = 1 - (1-u) = u,$$

這裡用到了機率積分變換：$F(T) \sim \text{Uniform}(0,1)$。因此 $p \sim \text{Uniform}(0,1)$。這個結果是型一錯誤率控制的基礎——以 $\alpha=0.05$ 為閾值拒絕 $H_0$，恰好給出 5% 的假陽性率。

顯著性的代價：選擇效應與膨脹的效應量

均勻分布的事實也揭示了危機的第一個來源。若研究者只在 $p<0.05$ 時發表（發表偏誤），那麼即使所有被檢定的虛無假設都為真，每 20 個檢定中平均仍有 1 個會「顯著」並被發表。文獻於是被假陽性填滿。

更隱蔽的是勝者詛咒（winner's curse）：在有限樣本下，只有那些偶然估計偏大的研究才能跨過顯著門檻。設真實效應為 $\theta$，估計量 $\hat\theta \sim \mathcal{N}(\theta, \sigma^2)$，發表條件為 $|\hat\theta|/\sigma > z_{\alpha/2}$。則發表後的條件期望

$$\mathbb{E}[\hat\theta \mid \text{published}] $$

在低統計檢力時會系統性地高於 $\theta$，因為截斷把分布的尾端留了下來。這正是為何再現研究中效應量普遍縮水。

定量小範例：低檢力下的假發現率

假設某領域中真正有效應的假設比例（先驗）只有 $\pi = 0.10$，檢定的型一錯誤率 $\alpha = 0.05$，統計檢力 $1-\beta = 0.40$（低檢力在小樣本研究中很常見）。我們計算一個「顯著」結果其實是假陽性的機率（False Discovery Rate, FDR）。

用全機率展開分母。在 1000 個檢定中：

真效應數：$1000 \times 0.10 = 100$，其中被偵測到 $100 \times 0.40 = 40$（真陽性）。
無效應數：$1000 \times 0.90 = 900$，其中誤判 $900 \times 0.05 = 45$（假陽性）。

於是

$$\text{FDR} = \frac{\text{假陽性}}{\text{真陽性} + \text{假陽性}} = \frac{45}{40 + 45} = \frac{45}{85} \approx 0.529.$$

換言之，超過一半的「顯著」發現是錯的——儘管每個檢定的 $\alpha$ 都只有 5%。一般化的公式為

$$\text{FDR} = \frac{(1-\pi)\,\alpha}{(1-\pi)\,\alpha + \pi\,(1-\beta)}.$$

這條式子量化了 Ioannidis 著名論斷「多數已發表的研究發現是錯的」的數學骨架：當先驗 $\pi$ 低、檢力 $1-\beta$ 低時，FDR 會逼近甚至超過 50%。

p-hacking 與多重比較的機制

研究者的「分析彈性」（researcher degrees of freedom）會進一步放大問題。若在同一份資料上嘗試 $m$ 個獨立檢定並只報告最小的 p 值，則「至少一個顯著」的機率為

$$\Pr(\min_i p_i < 0.05) = 1 - (1 - 0.05)^m.$$

當 $m=10$ 時這個值已達 $1 - 0.95^{10} \approx 0.40$。這就是 p-hacking 的數學本質：透過多次嘗試、選擇性報告、停止規則的彈性，把名目上 5% 的型一錯誤率悄悄推高。Bonferroni 校正（用 $\alpha/m$）或 Benjamini–Hochberg 程序（控制 FDR）正是針對此設計的補救。

該如何提升統計素養

第一，別把相關當因果：顯著的相關係數只說明關聯，不保證機制。第二，別誤解信賴區間：一個 95% 信賴區間 $[\hat\theta \pm 1.96\,\hat\sigma]$ 的「95%」是指程序在重複抽樣下的覆蓋率，不是「真值有 95% 機率落在這個特定區間內」。第三，報告效應量與不確定性，而非只報 p 值是否跨過 0.05。再現性危機不是統計方法失靈，而是把連續的證據強度壓縮成二元判斷、再嵌入扭曲的發表誘因所致。

深入探討（研究所視角）

從漸近理論看，p 值的行為由概似比的極限分布支配。在正則條件下，最大概似估計量（MLE）$\hat\theta_n$ 滿足漸近常態性

$$\sqrt{n}\,(\hat\theta_n - \theta_0) \xrightarrow{d} \mathcal{N}\big(0,\, I(\theta_0)^{-1}\big),$$

其中 $I(\theta_0) = -\mathbb{E}\big[\partial^2 \log f / \partial\theta^2\big]$ 是 Fisher 訊息量。Wilks 定理進一步指出，概似比統計量 $-2\log\Lambda \xrightarrow{d} \chi^2_k$，這正是諸多檢定 p 值的理論依據。然而漸近結果在小樣本下崩壞——而再現性危機恰好集中在小樣本領域，使得名目 $\alpha$ 與實際型一錯誤率產生落差。動差法（Method of Moments）雖在計算上更簡便，卻通常不具備 MLE 的漸近效率（不達 Cramér–Rao 下界），在低檢力情境下會放大勝者詛咒。

貝氏對應提供了另一條出路。貝氏因子（Bayes factor）$B_{10} = \Pr(\text{data} \mid H_1)/\Pr(\text{data} \mid H_0)$ 直接量化兩假設的相對證據強度，避開了「拒絕/不拒絕」的二元化。Sellke、Bayarri 與 Berger 證明，即使在最有利於 $H_1$ 的先驗下，$p=0.05$ 所對應的貝氏因子上界也僅約 $2.5$——遠弱於一般人對「顯著」的信心。這個 $p$-到-貝氏因子的校準揭示了 0.05 閾值在證據論上的脆弱，也是 2018 年「重新定義統計顯著性為 $p<0.005$」提案的理論支撐。

與機器學習的連結同樣深刻。高維資料的大規模檢定使多重比較問題指數惡化，Benjamini–Hochberg 的 FDR 控制因此成為基因體學與 A/B 測試的標準工具；而 Storey 的 $q$-value 把 FDR 推廣為每個假設的局部度量。選擇性推論（selective inference）框架——如 Lee 等人的 post-selection inference 與 knockoffs 方法——則嘗試在「先用資料選模型、再用同一份資料推論」時，仍給出有效的條件型一錯誤控制，這正是對 p-hacking 的形式化解方。

最後，因果推論提醒我們：再現性不只是統計顯著性的問題，更是估計目標（estimand）是否清楚界定的問題。潛在結果框架下，平均因果效應 $\tau = \mathbb{E}[Y(1) - Y(0)]$ 的可識別性依賴 ignorability 與 positivity 等假設；若這些假設不成立，再小的 p 值、再窄的信賴區間也無法挽救一個有偏的估計。真正穩健的科學，需要的是預先註冊（pre-registration）、充足檢力、透明的估計目標，以及把證據視為連續量而非二元門檻的素養。

← 上一篇

數字背後的把戲：p-hacking、倖存者偏差與圖表的謊言

貝氏學派與頻率學派之爭：兩種機率語法的推導與對偶

--

1

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings