Home
探索 Uedu
學生控制台
註冊會員/登入
研究知情同意中心
教師控制台
課程設定
支援與訊息
Uptime 數據

UeduGPTs

--

Jupyters

2

UG26 CISOSE26
臺北 AQI 26 · 臺中 AQI 19 · 臺南 AQI 18 · 高雄 AQI 17

AI 回覆桌面通知

AI 助教回覆完成時顯示桌面通知

聊天訊息通知

同學在討論區發送訊息時通知

聲音通知

每當有新通知時播放提示音

統計謬誤與素養

數字背後的把戲:p-hacking、倖存者偏差與圖表的謊言

看懂統計謬誤,建立看穿數字的素養與懷疑力

數字會說謊嗎?先認識三個常見的把戲

我們每天都被數字包圍:廣告說「九成使用者推薦」、新聞說「某食物增加三成罹病風險」、社群媒體說「成功創業家都有某個習慣」。數字看起來客觀、嚴謹,但同樣一批資料,換一種呈現方式、換一個取樣角度,就可能得出完全相反的結論。

統計素養不是要你會背公式,而是要你在看到一個數字時,能問出三個問題:這些資料是怎麼來的?這個數字是怎麼算的?它真的能支持那個結論嗎? 本文介紹三個最常見的統計把戲——p-hacking(鑽資料的洞)、倖存者偏差、誤用圖表——並用實際數字帶你看穿它們。

統計謬誤與素養概念示意圖

p 值是什麼?又為什麼會被「駭」

在統計檢定裡,我們常聽到「p 值小於 0.05,結果顯著」。p 值的正式意義是:假設「沒有效果」(虛無假設 $H_0$)為真,觀察到目前這麼極端、或更極端結果的機率

注意這個定義的微妙之處:p 值不是「虛無假設為真的機率」,也不是「結果出於偶然的機率」。這是最常見的誤解。$p=0.04$ 不代表「有 96% 機率有效」,它只是說:如果真的沒效果,那麼這種資料大約每 25 次才會偶然出現一次。

問題就出在「每 25 次出現一次」。如果你同時檢驗 20 個互不相關的假設,即使它們全都沒有真實效果,光靠運氣,平均也會有 1 個跑出 $p<0.05$:

$$ 20 \times 0.05 = 1 $$

更精確地說,20 個全無效果的檢定中,至少一個出現假陽性的機率是:

$$ P(\text{至少一次顯著}) = 1 - (1-0.05)^{20} = 1 - 0.95^{20} \approx 0.64 $$

也就是說,有 64% 的機率你會「中獎」一個看似顯著、實則虛假的結果。p-hacking 就是研究者(有意或無意)不斷嘗試不同變項組合、不同分群、不同排除條件,直到湊出一個 $p<0.05$ 才停手,然後只報告這一個。這樣得到的「發現」往往無法被別人重現,這正是近年科學界「可重現性危機」的核心。

防範方法包括:事先登錄分析計畫(pre-registration)、對多重比較做校正。最簡單的 Bonferroni 校正會把門檻除以檢定次數,例如做 20 個檢定時,把顯著門檻收緊為 $0.05/20 = 0.0025$。

倖存者偏差:你只看到活下來的那一半

二戰期間有個著名故事:軍方檢查返航的轟炸機,發現機翼與機尾彈孔最多,便想在這些地方加強裝甲。統計學家 Abraham Wald 卻指出——該加強的是彈孔最少的地方,例如引擎。因為引擎中彈的飛機根本飛不回來,你看到的樣本全是「倖存者」,它們的彈孔分布反而標示出「不致命」的位置。

這就是倖存者偏差:你的樣本只包含「通過某個篩選」的對象,而被淘汰的那些隱形了。

舉個生活化的數字例子。假設某創業課程宣稱:「上過我們課的學員,創業成功率高達 40%!」聽起來很厲害。但這 40% 是從「目前還在經營、願意回來受訪的學員」算出來的。

假設真實情況是:100 人上完課去創業,其中 60 人已經倒閉退場、不再聯絡(隱形了),剩下 40 人還在經營,而宣傳是從這 40 人中找出「自認成功」的 16 人:

$$ \text{宣傳的成功率} = \frac{16}{40} = 40\% $$

但若以全部 100 名創業者為分母:

$$ \text{真實成功率} = \frac{16}{100} = 16\% $$

數字從 40% 縮水到 16%,差別只在於分母是否包含那些消失的失敗者。下次看到「成功者都有某某特質」的論述,先問一句:那些有同樣特質卻失敗的人,去哪了?

誤用圖表:同樣的資料,不同的故事

圖表是最有說服力的,也最容易誤導。最經典的手法是截斷 Y 軸。假設某公司兩季營收分別是 102 萬與 108 萬元,成長其實只有約 5.9%:

$$ \frac{108 - 102}{102} \approx 0.059 = 5.9\% $$

如果長條圖的 Y 軸從 0 起算,兩根長條幾乎一樣高;但若把 Y 軸起點設在 100 萬,第二根看起來就比第一根「高出三倍」,營造出爆發性成長的錯覺。資料沒變,視覺暴力卻改變了讀者的感受。

其他常見的圖表陷阱還有:用面積或體積表示一維數量(半徑加倍、面積卻變四倍,誇大差異)、刻意不等距的時間軸、選擇性的起始點(cherry-picking 一個剛好低點當基準)。看圖表時,務必先看清楚座標軸的起點、刻度與單位。

一個迷你檢定:別讓「顯著」騙了你

最後用一個小範例收尾。某教學法宣稱能提升成績,已知母體平均為 $\mu=70$、標準差 $\sigma=10$。研究者抽了 $n=25$ 人,平均分 $\bar{x}=73$。看起來有進步,但這進步顯著嗎?計算 z 統計量:

$$ z = \frac{\bar{x}-\mu}{\sigma/\sqrt{n}} = \frac{73-70}{10/\sqrt{25}} = \frac{3}{2} = 1.5 $$

雙尾檢定下,$z=1.5$ 對應的 p 值約為 $0.134$,遠大於 $0.05$。結論:差異未達統計顯著,這 3 分的差距很可能只是抽樣波動。

但請注意:即使 $p<0.05$,也只代表「不太像純粹巧合」,不代表效果很大或很重要——一個 0.1 分的差距,只要樣本夠大也能變顯著。「統計顯著」與「實質重要」是兩回事,這是統計素養的最後一道防線。

深入探討(研究所視角)

入門段落把 p 值當成一個現成數字使用,但研究所層級必須回到 Neyman–Pearson 框架的根本張力。Fisher 的顯著性檢定把 p 值當作連續的證據強度,而 Neyman–Pearson 把檢定視為在型一誤差 $\alpha$ 與型二誤差 $\beta$ 之間做決策,檢定力(power)定義為 $1-\beta$。p-hacking 之所以致命,正因為它破壞了 $\alpha$ 的長期頻率學保證:當停止規則(stopping rule)與分析自由度未事先固定,名目上的 $\alpha=0.05$ 與真實的假陽性率脫鉤。這也呼應 Ioannidis(2005)的論證——在低先驗、低檢定力、高研究者自由度的領域,多數已發表的顯著結果其實為偽。

從估計理論看,好的估計量應同時滿足數個性質。不偏性要求 $E[\hat{\theta}]=\theta$;一致性要求 $\hat{\theta}_n \xrightarrow{P} \theta$(樣本變大時收斂到真值);有效性則在不偏估計量中挑變異數最小者,其下界由 Cramér–Rao 不等式給出:

$$ \mathrm{Var}(\hat{\theta}) \ge \frac{1}{I(\theta)}, \quad I(\theta) = E\!\left[\left(\frac{\partial}{\partial\theta}\log f(X;\theta)\right)^2\right] $$

其中 $I(\theta)$ 是 Fisher 訊息量。最大概似估計(MLE) 透過最大化對數概似 $\ell(\theta)=\sum_i \log f(x_i;\theta)$ 求解,在正則條件下具漸近不偏、漸近常態與漸近有效的優良性質,這也是為何 MLE 成為現代統計推論的支柱。樣本變異數使用 $n-1$ 而非 $n$ 當分母(自由度校正),正是為了讓估計量不偏——因為樣本均值已「用掉」一個自由度。

針對 p 值的濫用,當代有兩條互補的修正路線。其一是強調效果量(如 Cohen's $d=\frac{\bar{x}_1-\bar{x}_2}{s_p}$)與信賴區間,把焦點從「是否顯著」轉向「效果多大、估計多精確」;須注意 95% 信賴區間的正確詮釋是「此種程序在長期重複下有 95% 涵蓋真值」,而非「真值有 95% 機率落在此區間」。其二是貝氏觀點,以後驗分布 $p(\theta\mid x) \propto p(x\mid\theta)\,p(\theta)$ 直接量化參數的不確定性,並以貝氏因子比較模型證據,避開了 p 值的反事實詮釋難題。

最後,這些概念與機器學習深度相連:偏差—變異數權衡(bias–variance tradeoff)是不偏性與有效性張力的延伸,正則化(如 Lasso、Ridge)本質上是引入偏差以換取更低變異與更好的泛化;而交叉驗證、留出測試集與多重比較校正共享同一個精神——對抗「在同一批資料上反覆試探」所造成的過度樂觀。統計素養的核心,終究是誠實面對不確定性,而非用數字粉飾它。

AI 共讀助教正在陪你讀:數字背後的把戲:p-hacking、倖存者偏差與圖表的謊言
嗨!我是這篇文章的共讀助教,只根據〈數字背後的把戲:p-hacking、倖存者偏差與圖表的謊言〉的內容回答。可以問我「解釋某段」「舉個例子」「出題考我」,或反白文中段落後點下方「解釋選取段落」。