倖存者偏差與基率謬誤：選擇性條件化的數學機制

從條件分布扭曲、貝氏勝算到 Heckman 選擇模型，拆解兩個統計陷阱的共同骨架

進階 · 約 12 分鐘 ·#倖存者偏差#基率謬誤#貝氏推論#樣本選擇偏差#統計素養#因果推論

為什麼「成功者的共通點」幾乎都是幻覺

「輟學創業的億萬富翁都有某種特質」——這句話聽起來像洞見，實際上是統計學裡兩個經典陷阱的合體。倖存者偏差（survivorship bias）讓我們只看見通過某道篩選的樣本，基率謬誤（base rate fallacy）讓我們在判斷時忽略事前機率。兩者都不是「直覺不夠敏銳」的問題，而是抽樣機制本身扭曲了條件分布。本文以已具備機率與統計推論基礎的讀者為對象，把這兩個現象寫成可推導、可估計的數學物件。

倖存者偏差與基率謬誤概念示意圖

倖存者偏差作為選擇性抽樣的條件分布扭曲

設母體中每個個體有一組我們關心的變數 $X$（例如創業策略、基金的初始配置），與一個我們未必觀察到的潛在結果 $Y$。倖存者偏差的核心是：我們只在「存活」事件 $S=1$ 成立時才觀察到 $X$。於是樣本不是來自邊際分布 $p(x)$，而是來自條件分布

$$ p(x \mid S=1) = \frac{P(S=1 \mid x)\,p(x)}{\displaystyle\int P(S=1 \mid x')\,p(x')\,dx'}. $$

只要存活機率 $P(S=1\mid x)$ 與 $x$ 有關，$p(x\mid S=1)$ 就會偏離 $p(x)$。被高估的是那些剛好和存活正相關的特徵。這正是 Abraham Wald 在二戰分析返航轟炸機彈孔時的洞見：彈孔密集處不該補強，因為被擊中該處仍能返航；該補強的是「返航樣本中幾乎沒有彈孔」的引擎艙——那些中彈的飛機根本沒回來，被結構性地排除在樣本之外。

把它寫成期望值的偏誤更清楚。若我們天真地用倖存樣本估計 $\mathbb{E}[Y]$，得到的是 $\mathbb{E}[Y\mid S=1]$。當 $Y$ 與存活相關時，

$$ \mathbb{E}[Y \mid S=1] - \mathbb{E}[Y] = \frac{\operatorname{Cov}(Y, S)}{P(S=1)}, $$

此式可由 $\mathbb{E}[Y\mid S=1]=\mathbb{E}[YS]/P(S=1)$ 與 $\operatorname{Cov}(Y,S)=\mathbb{E}[YS]-\mathbb{E}[Y]P(S=1)$ 直接推得。偏誤的大小與方向完全由 $\operatorname{Cov}(Y,S)$ 決定。基金績效研究中常見的回填偏差（backfill bias）與倖存基金偏差，使指數年化報酬被系統性高估，正是這個 $\operatorname{Cov}(Y,S)>0$ 的實例：表現差的基金被清算後從資料庫消失。

基率謬誤：被忽略的先驗如何主宰後驗

基率謬誤是貝氏定理的「直覺版誤用」。給定一個檢驗，令 $D$ 表示「真的患病／真的有效」，$T^+$ 表示檢驗為陽性。人們傾向用敏感度 $P(T^+\mid D)$ 直接當作 $P(D\mid T^+)$，卻忽略基率（先驗）$P(D)$。正確的後驗是

$$ P(D \mid T^+) = \frac{P(T^+\mid D)\,P(D)}{P(T^+\mid D)\,P(D) + P(T^+\mid \neg D)\,P(\neg D)}. $$

寫成勝算（odds）形式更能看出基率的支配力。後驗勝算等於先驗勝算乘上概似比（likelihood ratio）：

$$ \underbrace{\frac{P(D\mid T^+)}{P(\neg D\mid T^+)}}_{\text{後驗勝算}} = \underbrace{\frac{P(D)}{P(\neg D)}}_{\text{先驗勝算}} \times \underbrace{\frac{P(T^+\mid D)}{P(T^+\mid \neg D)}}_{\text{LR}^+}. $$

當基率 $P(D)$ 極小時，即使概似比很大，後驗仍可能很低。這也解釋了為何 p 值不是「虛無假設為真的機率」：$p = P(\text{資料}\mid H_0)$ 是概似面的量，而我們真正想知道的 $P(H_0\mid \text{資料})$ 還要乘上 $H_0$ 的先驗勝算。忽略這一步，等同於忽略基率。

定量小範例：稀有疾病的陽性預測值

假設某疾病基率 $P(D)=0.001$，檢驗敏感度 $P(T^+\mid D)=0.99$，特異度 $P(T^-\mid\neg D)=0.95$，故偽陽率 $P(T^+\mid\neg D)=0.05$。求陽性者真的患病的機率。

步驟一，先驗勝算：$\dfrac{P(D)}{P(\neg D)}=\dfrac{0.001}{0.999}\approx 0.0010010$。

步驟二，陽性概似比：$\mathrm{LR}^+=\dfrac{0.99}{0.05}=19.8$。

步驟三，後驗勝算：$0.0010010\times 19.8\approx 0.019820$。

步驟四，轉回機率：$P(D\mid T^+)=\dfrac{0.019820}{1+0.019820}\approx 0.01944$。

也就是說，陽性者真正患病的機率僅約 1.94%。即使敏感度高達 99%，由於基率僅千分之一，每檢出一個真陽性，就伴隨約 50 個偽陽性（$0.999\times0.05\approx 0.04995$ 對上 $0.001\times0.99=0.00099$，比值約 50:1）。把直覺從「99% 準」修正到「不到 2%」，正是基率謬誤最具教育意義的一擊。

兩者的共同骨架：條件化在錯誤的事件上

倖存者偏差與基率謬誤看似不同，骨架卻一致：我們在一個經過選擇的事件上做條件化，卻誤以為結論適用於無條件母體。倖存者偏差條件在 $S=1$（被觀察到），基率謬誤則是忘了乘上 $P(D)$ 這個無條件權重。兩者都提醒我們：相關不等於因果，而當抽樣機制與結果相關時，連「相關」本身的估計都會被汙染。一個健全的統計素養，首先要問的不是「資料說了什麼」，而是「這份資料是怎麼被選進來的」。

深入探討（研究所視角）

從計量經濟學的角度，倖存者偏差是樣本選擇（sample selection）的特例，與 Heckman 的選擇模型同源。若結果方程 $Y_i = X_i^\top\beta + \varepsilon_i$ 只在選擇方程 $S_i^\* = Z_i^\top\gamma + u_i > 0$ 時被觀察，且 $(\varepsilon,u)$ 雙變量常態而相關係數 $\rho\neq 0$，則對倖存樣本取條件期望會引入逆米爾斯比（inverse Mills ratio）：

$$ \mathbb{E}[Y_i \mid S_i=1] = X_i^\top\beta + \rho\sigma_\varepsilon\,\lambda(Z_i^\top\gamma),\qquad \lambda(\cdot)=\frac{\phi(\cdot)}{\Phi(\cdot)}. $$

直接 OLS 因遺漏 $\lambda$ 項而不一致；Heckman 兩步驟法先以 probit 估 $\gamma$、再把估計的 $\hat\lambda$ 放回主方程，可得一致估計。此估計量在標準正則條件下具 $\sqrt{n}$-一致性與漸近常態性，但第二步須對「生成迴歸量」做變異數修正，否則標準誤被低估。

最大概似（MLE）提供更統一的處理：把選擇與結果的聯合概似（含截斷或設限結構）寫出後直接優化，在正確設定下達到 Cramér–Rao 下界、漸近有效，且其漸近變異為 Fisher 訊息的逆 $I(\theta)^{-1}/n$。相對地，動差法（GMM）以矩條件 $\mathbb{E}[g(W;\theta)]=0$ 出發，對分布設定要求較鬆、穩健性較佳，但在訊息完整時效率不及 MLE——這是穩健性與效率的典型取捨。

貝氏觀點則把基率自然吸收進先驗：後驗 $p(\theta\mid \text{data})\propto p(\text{data}\mid\theta)\,p(\theta)$，基率謬誤無非是把先驗 $p(\theta)$ 設成均勻而不自知。在弱可識別或小樣本下，資訊性先驗能穩定後驗，而 Bernstein–von Mises 定理保證在正則條件與大樣本下後驗會趨近以 MLE 為中心、$I(\theta)^{-1}/n$ 為共變異的常態，使貝氏與頻率派漸近一致。

與機器學習及因果推論的連結尤為前沿。在 missing-not-at-random 或 covariate shift 下，倖存者偏差等同於訓練分布 $p_{\text{train}}(x)=p(x\mid S=1)$ 與部署分布 $p(x)$ 不一致，可用重要性加權 $w(x)=p(x)/p(x\mid S=1)$ 校正，前提是傾向 $P(S=1\mid x)$ 處處為正（positivity）。這正是因果推論中以反事實框架處理選擇偏差的核心：在可忽略性（ignorability）與重疊性假設下，逆機率加權（IPW）或雙重穩健估計量可還原無條件的目標估計量，而碰撞點（collider）上的條件化——對撞分層偏差——則在 DAG 語言中清楚刻畫了「為何條件在倖存上會憑空製造相關」。把這些工具看成同一條主線，倖存者偏差與基率謬誤便不再是零散的認知偏誤，而是選擇性條件化這個統一機制在不同情境下的投影。

← 上一篇

貝氏學派與頻率學派之爭：兩種機率語法的推導與對偶

--

1

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings