Home
探索 Uedu
學生控制台
註冊會員/登入
研究知情同意中心
教師控制台
課程設定
支援與訊息
Uptime 數據

UeduGPTs

--

Jupyters

2

UG26 CISOSE26
臺北 AQI 26 · 臺中 AQI 19 · 臺南 AQI 18 · 高雄 AQI 17

AI 回覆桌面通知

AI 助教回覆完成時顯示桌面通知

聊天訊息通知

同學在討論區發送訊息時通知

聲音通知

每當有新通知時播放提示音

統計謬誤與素養

p 值爭議與再現性危機:從機率機制看顯著性的崩塌

為什麼 0.05 的門檻會系統性地製造假陽性,以及統計學家如何用漸近理論、貝氏因子與選擇性推論來修補

為什麼一個 0.05 能掀起一場危機

當一篇論文寫下「$p < 0.05$,結果顯著」,許多讀者會直覺地把它讀成「假設為真的機率很高」或「這個效應是真的」。但這兩種解讀都錯了。p 值爭議與再現性危機的核心,正是這層集體的誤讀——再加上一整套科學發表制度,把「顯著」變成了通往發表的門票。要理解這場危機為何在統計學上不可避免,我們必須回到 p 值的精確定義,並從機率機制推導出它在實務中如何系統性地誤導。

p 值爭議與再現性危機概念示意圖

p 值的精確定義與常見誤解

設我們檢定虛無假設 $H_0$,檢定統計量為 $T$,觀測值為 $t_{\text{obs}}$。p 值定義為:在 $H_0$ 為真的前提下,得到「與觀測值一樣極端或更極端」之統計量的機率:

$$p = \Pr(T \ge t_{\text{obs}} \mid H_0) \quad (\text{單尾})$$

關鍵在於這是一個條件機率 $\Pr(\text{data} \mid H_0)$,而非後驗機率 $\Pr(H_0 \mid \text{data})$。兩者透過貝氏定理相連:

$$\Pr(H_0 \mid \text{data}) = \frac{\Pr(\text{data} \mid H_0)\,\Pr(H_0)}{\Pr(\text{data})}$$

由於右側涉及先驗 $\Pr(H_0)$ 與邊際概似 $\Pr(\text{data})$,p 值本身無法告訴你假設為真的機率。把 $p=0.03$ 讀成「$H_0$ 只有 3% 的機會成立」是典型的檢察官謬誤(prosecutor's fallacy)。

一個常被忽略的數學事實是:當 $H_0$ 為真且檢定統計量連續時,p 值服從 $[0,1]$ 上的均勻分布。證明很簡潔:令 $F$ 為 $T$ 在 $H_0$ 下的累積分布函數,$p = 1 - F(T)$。對任意 $u \in [0,1]$,

$$\Pr(p \le u) = \Pr\big(1 - F(T) \le u\big) = \Pr\big(F(T) \ge 1-u\big) = 1 - (1-u) = u,$$

這裡用到了機率積分變換:$F(T) \sim \text{Uniform}(0,1)$。因此 $p \sim \text{Uniform}(0,1)$。這個結果是型一錯誤率控制的基礎——以 $\alpha=0.05$ 為閾值拒絕 $H_0$,恰好給出 5% 的假陽性率。

顯著性的代價:選擇效應與膨脹的效應量

均勻分布的事實也揭示了危機的第一個來源。若研究者只在 $p<0.05$ 時發表(發表偏誤),那麼即使所有被檢定的虛無假設都為真,每 20 個檢定中平均仍有 1 個會「顯著」並被發表。文獻於是被假陽性填滿。

更隱蔽的是勝者詛咒(winner's curse):在有限樣本下,只有那些偶然估計偏大的研究才能跨過顯著門檻。設真實效應為 $\theta$,估計量 $\hat\theta \sim \mathcal{N}(\theta, \sigma^2)$,發表條件為 $|\hat\theta|/\sigma > z_{\alpha/2}$。則發表後的條件期望

$$\mathbb{E}[\hat\theta \mid \text{published}] $$

在低統計檢力時會系統性地高於 $\theta$,因為截斷把分布的尾端留了下來。這正是為何再現研究中效應量普遍縮水。

定量小範例:低檢力下的假發現率

假設某領域中真正有效應的假設比例(先驗)只有 $\pi = 0.10$,檢定的型一錯誤率 $\alpha = 0.05$,統計檢力 $1-\beta = 0.40$(低檢力在小樣本研究中很常見)。我們計算一個「顯著」結果其實是假陽性的機率(False Discovery Rate, FDR)。

用全機率展開分母。在 1000 個檢定中:

  • 真效應數:$1000 \times 0.10 = 100$,其中被偵測到 $100 \times 0.40 = 40$(真陽性)。
  • 無效應數:$1000 \times 0.90 = 900$,其中誤判 $900 \times 0.05 = 45$(假陽性)。

於是

$$\text{FDR} = \frac{\text{假陽性}}{\text{真陽性} + \text{假陽性}} = \frac{45}{40 + 45} = \frac{45}{85} \approx 0.529.$$

換言之,超過一半的「顯著」發現是錯的——儘管每個檢定的 $\alpha$ 都只有 5%。一般化的公式為

$$\text{FDR} = \frac{(1-\pi)\,\alpha}{(1-\pi)\,\alpha + \pi\,(1-\beta)}.$$

這條式子量化了 Ioannidis 著名論斷「多數已發表的研究發現是錯的」的數學骨架:當先驗 $\pi$ 低、檢力 $1-\beta$ 低時,FDR 會逼近甚至超過 50%。

p-hacking 與多重比較的機制

研究者的「分析彈性」(researcher degrees of freedom)會進一步放大問題。若在同一份資料上嘗試 $m$ 個獨立檢定並只報告最小的 p 值,則「至少一個顯著」的機率為

$$\Pr(\min_i p_i < 0.05) = 1 - (1 - 0.05)^m.$$

當 $m=10$ 時這個值已達 $1 - 0.95^{10} \approx 0.40$。這就是 p-hacking 的數學本質:透過多次嘗試、選擇性報告、停止規則的彈性,把名目上 5% 的型一錯誤率悄悄推高。Bonferroni 校正(用 $\alpha/m$)或 Benjamini–Hochberg 程序(控制 FDR)正是針對此設計的補救。

該如何提升統計素養

第一,別把相關當因果:顯著的相關係數只說明關聯,不保證機制。第二,別誤解信賴區間:一個 95% 信賴區間 $[\hat\theta \pm 1.96\,\hat\sigma]$ 的「95%」是指程序在重複抽樣下的覆蓋率,不是「真值有 95% 機率落在這個特定區間內」。第三,報告效應量與不確定性,而非只報 p 值是否跨過 0.05。再現性危機不是統計方法失靈,而是把連續的證據強度壓縮成二元判斷、再嵌入扭曲的發表誘因所致。

深入探討(研究所視角)

從漸近理論看,p 值的行為由概似比的極限分布支配。在正則條件下,最大概似估計量(MLE)$\hat\theta_n$ 滿足漸近常態性

$$\sqrt{n}\,(\hat\theta_n - \theta_0) \xrightarrow{d} \mathcal{N}\big(0,\, I(\theta_0)^{-1}\big),$$

其中 $I(\theta_0) = -\mathbb{E}\big[\partial^2 \log f / \partial\theta^2\big]$ 是 Fisher 訊息量。Wilks 定理進一步指出,概似比統計量 $-2\log\Lambda \xrightarrow{d} \chi^2_k$,這正是諸多檢定 p 值的理論依據。然而漸近結果在小樣本下崩壞——而再現性危機恰好集中在小樣本領域,使得名目 $\alpha$ 與實際型一錯誤率產生落差。動差法(Method of Moments)雖在計算上更簡便,卻通常不具備 MLE 的漸近效率(不達 Cramér–Rao 下界),在低檢力情境下會放大勝者詛咒。

貝氏對應提供了另一條出路。貝氏因子(Bayes factor)$B_{10} = \Pr(\text{data} \mid H_1)/\Pr(\text{data} \mid H_0)$ 直接量化兩假設的相對證據強度,避開了「拒絕/不拒絕」的二元化。Sellke、Bayarri 與 Berger 證明,即使在最有利於 $H_1$ 的先驗下,$p=0.05$ 所對應的貝氏因子上界也僅約 $2.5$——遠弱於一般人對「顯著」的信心。這個 $p$-到-貝氏因子的校準揭示了 0.05 閾值在證據論上的脆弱,也是 2018 年「重新定義統計顯著性為 $p<0.005$」提案的理論支撐。

與機器學習的連結同樣深刻。高維資料的大規模檢定使多重比較問題指數惡化,Benjamini–Hochberg 的 FDR 控制因此成為基因體學與 A/B 測試的標準工具;而 Storey 的 $q$-value 把 FDR 推廣為每個假設的局部度量。選擇性推論(selective inference)框架——如 Lee 等人的 post-selection inference 與 knockoffs 方法——則嘗試在「先用資料選模型、再用同一份資料推論」時,仍給出有效的條件型一錯誤控制,這正是對 p-hacking 的形式化解方。

最後,因果推論提醒我們:再現性不只是統計顯著性的問題,更是估計目標(estimand)是否清楚界定的問題。潛在結果框架下,平均因果效應 $\tau = \mathbb{E}[Y(1) - Y(0)]$ 的可識別性依賴 ignorability 與 positivity 等假設;若這些假設不成立,再小的 p 值、再窄的信賴區間也無法挽救一個有偏的估計。真正穩健的科學,需要的是預先註冊(pre-registration)、充足檢力、透明的估計目標,以及把證據視為連續量而非二元門檻的素養。

AI 共讀助教正在陪你讀:p 值爭議與再現性危機:從機率機制看顯著性的崩塌
嗨!我是這篇文章的共讀助教,只根據〈p 值爭議與再現性危機:從機率機制看顯著性的崩塌〉的內容回答。可以問我「解釋某段」「舉個例子」「出題考我」,或反白文中段落後點下方「解釋選取段落」。