數字背後的把戲：p-hacking、倖存者偏差與圖表的謊言

看懂統計謬誤，建立看穿數字的素養與懷疑力

高中｜大學銜接 · 約 9 分鐘 ·#統計素養#p-hacking#倖存者偏差#圖表誤用#假設檢定

數字會說謊嗎？先認識三個常見的把戲

我們每天都被數字包圍：廣告說「九成使用者推薦」、新聞說「某食物增加三成罹病風險」、社群媒體說「成功創業家都有某個習慣」。數字看起來客觀、嚴謹，但同樣一批資料，換一種呈現方式、換一個取樣角度，就可能得出完全相反的結論。

統計素養不是要你會背公式，而是要你在看到一個數字時，能問出三個問題：這些資料是怎麼來的？這個數字是怎麼算的？它真的能支持那個結論嗎？ 本文介紹三個最常見的統計把戲——p-hacking（鑽資料的洞）、倖存者偏差、誤用圖表——並用實際數字帶你看穿它們。

統計謬誤與素養概念示意圖

p 值是什麼？又為什麼會被「駭」

在統計檢定裡，我們常聽到「p 值小於 0.05，結果顯著」。p 值的正式意義是：假設「沒有效果」（虛無假設 $H_0$）為真，觀察到目前這麼極端、或更極端結果的機率。

注意這個定義的微妙之處：p 值不是「虛無假設為真的機率」，也不是「結果出於偶然的機率」。這是最常見的誤解。$p=0.04$ 不代表「有 96% 機率有效」，它只是說：如果真的沒效果，那麼這種資料大約每 25 次才會偶然出現一次。

問題就出在「每 25 次出現一次」。如果你同時檢驗 20 個互不相關的假設，即使它們全都沒有真實效果，光靠運氣，平均也會有 1 個跑出 $p<0.05$：

$$ 20 \times 0.05 = 1 $$

更精確地說，20 個全無效果的檢定中，至少一個出現假陽性的機率是：

$$ P(\text{至少一次顯著}) = 1 - (1-0.05)^{20} = 1 - 0.95^{20} \approx 0.64 $$

也就是說，有 64% 的機率你會「中獎」一個看似顯著、實則虛假的結果。p-hacking 就是研究者（有意或無意）不斷嘗試不同變項組合、不同分群、不同排除條件，直到湊出一個 $p<0.05$ 才停手，然後只報告這一個。這樣得到的「發現」往往無法被別人重現，這正是近年科學界「可重現性危機」的核心。

防範方法包括：事先登錄分析計畫（pre-registration）、對多重比較做校正。最簡單的 Bonferroni 校正會把門檻除以檢定次數，例如做 20 個檢定時，把顯著門檻收緊為 $0.05/20 = 0.0025$。

倖存者偏差：你只看到活下來的那一半

二戰期間有個著名故事：軍方檢查返航的轟炸機，發現機翼與機尾彈孔最多，便想在這些地方加強裝甲。統計學家 Abraham Wald 卻指出——該加強的是彈孔最少的地方，例如引擎。因為引擎中彈的飛機根本飛不回來，你看到的樣本全是「倖存者」，它們的彈孔分布反而標示出「不致命」的位置。

這就是倖存者偏差：你的樣本只包含「通過某個篩選」的對象，而被淘汰的那些隱形了。

舉個生活化的數字例子。假設某創業課程宣稱：「上過我們課的學員，創業成功率高達 40%！」聽起來很厲害。但這 40% 是從「目前還在經營、願意回來受訪的學員」算出來的。

假設真實情況是：100 人上完課去創業，其中 60 人已經倒閉退場、不再聯絡（隱形了），剩下 40 人還在經營，而宣傳是從這 40 人中找出「自認成功」的 16 人：

$$ \text{宣傳的成功率} = \frac{16}{40} = 40\% $$

但若以全部 100 名創業者為分母：

$$ \text{真實成功率} = \frac{16}{100} = 16\% $$

數字從 40% 縮水到 16%，差別只在於分母是否包含那些消失的失敗者。下次看到「成功者都有某某特質」的論述，先問一句：那些有同樣特質卻失敗的人，去哪了？

誤用圖表：同樣的資料，不同的故事

圖表是最有說服力的，也最容易誤導。最經典的手法是截斷 Y 軸。假設某公司兩季營收分別是 102 萬與 108 萬元，成長其實只有約 5.9%：

$$ \frac{108 - 102}{102} \approx 0.059 = 5.9\% $$

如果長條圖的 Y 軸從 0 起算，兩根長條幾乎一樣高；但若把 Y 軸起點設在 100 萬，第二根看起來就比第一根「高出三倍」，營造出爆發性成長的錯覺。資料沒變，視覺暴力卻改變了讀者的感受。

其他常見的圖表陷阱還有：用面積或體積表示一維數量（半徑加倍、面積卻變四倍，誇大差異）、刻意不等距的時間軸、選擇性的起始點（cherry-picking 一個剛好低點當基準）。看圖表時，務必先看清楚座標軸的起點、刻度與單位。

一個迷你檢定：別讓「顯著」騙了你

最後用一個小範例收尾。某教學法宣稱能提升成績，已知母體平均為 $\mu=70$、標準差 $\sigma=10$。研究者抽了 $n=25$ 人，平均分 $\bar{x}=73$。看起來有進步，但這進步顯著嗎？計算 z 統計量：

$$ z = \frac{\bar{x}-\mu}{\sigma/\sqrt{n}} = \frac{73-70}{10/\sqrt{25}} = \frac{3}{2} = 1.5 $$

雙尾檢定下，$z=1.5$ 對應的 p 值約為 $0.134$，遠大於 $0.05$。結論：差異未達統計顯著，這 3 分的差距很可能只是抽樣波動。

但請注意：即使 $p<0.05$，也只代表「不太像純粹巧合」，不代表效果很大或很重要——一個 0.1 分的差距，只要樣本夠大也能變顯著。「統計顯著」與「實質重要」是兩回事，這是統計素養的最後一道防線。

深入探討（研究所視角）

入門段落把 p 值當成一個現成數字使用，但研究所層級必須回到 Neyman–Pearson 框架的根本張力。Fisher 的顯著性檢定把 p 值當作連續的證據強度，而 Neyman–Pearson 把檢定視為在型一誤差 $\alpha$ 與型二誤差 $\beta$ 之間做決策，檢定力（power）定義為 $1-\beta$。p-hacking 之所以致命，正因為它破壞了 $\alpha$ 的長期頻率學保證：當停止規則（stopping rule）與分析自由度未事先固定，名目上的 $\alpha=0.05$ 與真實的假陽性率脫鉤。這也呼應 Ioannidis（2005）的論證——在低先驗、低檢定力、高研究者自由度的領域，多數已發表的顯著結果其實為偽。

從估計理論看，好的估計量應同時滿足數個性質。不偏性要求 $E[\hat{\theta}]=\theta$；一致性要求 $\hat{\theta}_n \xrightarrow{P} \theta$（樣本變大時收斂到真值）；有效性則在不偏估計量中挑變異數最小者，其下界由 Cramér–Rao 不等式給出：

$$ \mathrm{Var}(\hat{\theta}) \ge \frac{1}{I(\theta)}, \quad I(\theta) = E\!\left[\left(\frac{\partial}{\partial\theta}\log f(X;\theta)\right)^2\right] $$

其中 $I(\theta)$ 是 Fisher 訊息量。最大概似估計（MLE） 透過最大化對數概似 $\ell(\theta)=\sum_i \log f(x_i;\theta)$ 求解，在正則條件下具漸近不偏、漸近常態與漸近有效的優良性質，這也是為何 MLE 成為現代統計推論的支柱。樣本變異數使用 $n-1$ 而非 $n$ 當分母（自由度校正），正是為了讓估計量不偏——因為樣本均值已「用掉」一個自由度。

針對 p 值的濫用，當代有兩條互補的修正路線。其一是強調效果量（如 Cohen's $d=\frac{\bar{x}_1-\bar{x}_2}{s_p}$）與信賴區間，把焦點從「是否顯著」轉向「效果多大、估計多精確」；須注意 95% 信賴區間的正確詮釋是「此種程序在長期重複下有 95% 涵蓋真值」，而非「真值有 95% 機率落在此區間」。其二是貝氏觀點，以後驗分布 $p(\theta\mid x) \propto p(x\mid\theta)\,p(\theta)$ 直接量化參數的不確定性，並以貝氏因子比較模型證據，避開了 p 值的反事實詮釋難題。

最後，這些概念與機器學習深度相連：偏差—變異數權衡（bias–variance tradeoff）是不偏性與有效性張力的延伸，正則化（如 Lasso、Ridge）本質上是引入偏差以換取更低變異與更好的泛化；而交叉驗證、留出測試集與多重比較校正共享同一個精神——對抗「在同一批資料上反覆試探」所造成的過度樂觀。統計素養的核心，終究是誠實面對不確定性，而非用數字粉飾它。

p 值爭議與再現性危機：從機率機制看顯著性的崩塌

--

1

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings