Home
探索 Uedu
學生控制台
註冊會員/登入
研究知情同意中心
教師控制台
課程設定
支援與訊息
Uptime 數據

UeduGPTs

--

Jupyters

2

UG26 CISOSE26
臺北 AQI 26 · 臺中 AQI 19 · 臺南 AQI 18 · 高雄 AQI 17

AI 回覆桌面通知

AI 助教回覆完成時顯示桌面通知

聊天訊息通知

同學在討論區發送訊息時通知

聲音通知

每當有新通知時播放提示音

統計謬誤與素養

倖存者偏差與基率謬誤:選擇性條件化的數學機制

從條件分布扭曲、貝氏勝算到 Heckman 選擇模型,拆解兩個統計陷阱的共同骨架

為什麼「成功者的共通點」幾乎都是幻覺

「輟學創業的億萬富翁都有某種特質」——這句話聽起來像洞見,實際上是統計學裡兩個經典陷阱的合體。倖存者偏差(survivorship bias)讓我們只看見通過某道篩選的樣本,基率謬誤(base rate fallacy)讓我們在判斷時忽略事前機率。兩者都不是「直覺不夠敏銳」的問題,而是抽樣機制本身扭曲了條件分布。本文以已具備機率與統計推論基礎的讀者為對象,把這兩個現象寫成可推導、可估計的數學物件。

倖存者偏差與基率謬誤概念示意圖

倖存者偏差作為選擇性抽樣的條件分布扭曲

設母體中每個個體有一組我們關心的變數 $X$(例如創業策略、基金的初始配置),與一個我們未必觀察到的潛在結果 $Y$。倖存者偏差的核心是:我們只在「存活」事件 $S=1$ 成立時才觀察到 $X$。於是樣本不是來自邊際分布 $p(x)$,而是來自條件分布

$$ p(x \mid S=1) = \frac{P(S=1 \mid x)\,p(x)}{\displaystyle\int P(S=1 \mid x')\,p(x')\,dx'}. $$

只要存活機率 $P(S=1\mid x)$ 與 $x$ 有關,$p(x\mid S=1)$ 就會偏離 $p(x)$。被高估的是那些剛好和存活正相關的特徵。這正是 Abraham Wald 在二戰分析返航轟炸機彈孔時的洞見:彈孔密集處不該補強,因為被擊中該處仍能返航;該補強的是「返航樣本中幾乎沒有彈孔」的引擎艙——那些中彈的飛機根本沒回來,被結構性地排除在樣本之外。

把它寫成期望值的偏誤更清楚。若我們天真地用倖存樣本估計 $\mathbb{E}[Y]$,得到的是 $\mathbb{E}[Y\mid S=1]$。當 $Y$ 與存活相關時,

$$ \mathbb{E}[Y \mid S=1] - \mathbb{E}[Y] = \frac{\operatorname{Cov}(Y, S)}{P(S=1)}, $$

此式可由 $\mathbb{E}[Y\mid S=1]=\mathbb{E}[YS]/P(S=1)$ 與 $\operatorname{Cov}(Y,S)=\mathbb{E}[YS]-\mathbb{E}[Y]P(S=1)$ 直接推得。偏誤的大小與方向完全由 $\operatorname{Cov}(Y,S)$ 決定。基金績效研究中常見的回填偏差(backfill bias)與倖存基金偏差,使指數年化報酬被系統性高估,正是這個 $\operatorname{Cov}(Y,S)>0$ 的實例:表現差的基金被清算後從資料庫消失。

基率謬誤:被忽略的先驗如何主宰後驗

基率謬誤是貝氏定理的「直覺版誤用」。給定一個檢驗,令 $D$ 表示「真的患病/真的有效」,$T^+$ 表示檢驗為陽性。人們傾向用敏感度 $P(T^+\mid D)$ 直接當作 $P(D\mid T^+)$,卻忽略基率(先驗)$P(D)$。正確的後驗是

$$ P(D \mid T^+) = \frac{P(T^+\mid D)\,P(D)}{P(T^+\mid D)\,P(D) + P(T^+\mid \neg D)\,P(\neg D)}. $$

寫成勝算(odds)形式更能看出基率的支配力。後驗勝算等於先驗勝算乘上概似比(likelihood ratio):

$$ \underbrace{\frac{P(D\mid T^+)}{P(\neg D\mid T^+)}}_{\text{後驗勝算}} = \underbrace{\frac{P(D)}{P(\neg D)}}_{\text{先驗勝算}} \times \underbrace{\frac{P(T^+\mid D)}{P(T^+\mid \neg D)}}_{\text{LR}^+}. $$

當基率 $P(D)$ 極小時,即使概似比很大,後驗仍可能很低。這也解釋了為何 p 值不是「虛無假設為真的機率」:$p = P(\text{資料}\mid H_0)$ 是概似面的量,而我們真正想知道的 $P(H_0\mid \text{資料})$ 還要乘上 $H_0$ 的先驗勝算。忽略這一步,等同於忽略基率。

定量小範例:稀有疾病的陽性預測值

假設某疾病基率 $P(D)=0.001$,檢驗敏感度 $P(T^+\mid D)=0.99$,特異度 $P(T^-\mid\neg D)=0.95$,故偽陽率 $P(T^+\mid\neg D)=0.05$。求陽性者真的患病的機率。

步驟一,先驗勝算:$\dfrac{P(D)}{P(\neg D)}=\dfrac{0.001}{0.999}\approx 0.0010010$。

步驟二,陽性概似比:$\mathrm{LR}^+=\dfrac{0.99}{0.05}=19.8$。

步驟三,後驗勝算:$0.0010010\times 19.8\approx 0.019820$。

步驟四,轉回機率:$P(D\mid T^+)=\dfrac{0.019820}{1+0.019820}\approx 0.01944$。

也就是說,陽性者真正患病的機率僅約 1.94%。即使敏感度高達 99%,由於基率僅千分之一,每檢出一個真陽性,就伴隨約 50 個偽陽性($0.999\times0.05\approx 0.04995$ 對上 $0.001\times0.99=0.00099$,比值約 50:1)。把直覺從「99% 準」修正到「不到 2%」,正是基率謬誤最具教育意義的一擊。

兩者的共同骨架:條件化在錯誤的事件上

倖存者偏差與基率謬誤看似不同,骨架卻一致:我們在一個經過選擇的事件上做條件化,卻誤以為結論適用於無條件母體。倖存者偏差條件在 $S=1$(被觀察到),基率謬誤則是忘了乘上 $P(D)$ 這個無條件權重。兩者都提醒我們:相關不等於因果,而當抽樣機制與結果相關時,連「相關」本身的估計都會被汙染。一個健全的統計素養,首先要問的不是「資料說了什麼」,而是「這份資料是怎麼被選進來的」。

深入探討(研究所視角)

從計量經濟學的角度,倖存者偏差是樣本選擇(sample selection)的特例,與 Heckman 的選擇模型同源。若結果方程 $Y_i = X_i^\top\beta + \varepsilon_i$ 只在選擇方程 $S_i^\* = Z_i^\top\gamma + u_i > 0$ 時被觀察,且 $(\varepsilon,u)$ 雙變量常態而相關係數 $\rho\neq 0$,則對倖存樣本取條件期望會引入逆米爾斯比(inverse Mills ratio):

$$ \mathbb{E}[Y_i \mid S_i=1] = X_i^\top\beta + \rho\sigma_\varepsilon\,\lambda(Z_i^\top\gamma),\qquad \lambda(\cdot)=\frac{\phi(\cdot)}{\Phi(\cdot)}. $$

直接 OLS 因遺漏 $\lambda$ 項而不一致;Heckman 兩步驟法先以 probit 估 $\gamma$、再把估計的 $\hat\lambda$ 放回主方程,可得一致估計。此估計量在標準正則條件下具 $\sqrt{n}$-一致性與漸近常態性,但第二步須對「生成迴歸量」做變異數修正,否則標準誤被低估。

最大概似(MLE)提供更統一的處理:把選擇與結果的聯合概似(含截斷或設限結構)寫出後直接優化,在正確設定下達到 Cramér–Rao 下界、漸近有效,且其漸近變異為 Fisher 訊息的逆 $I(\theta)^{-1}/n$。相對地,動差法(GMM)以矩條件 $\mathbb{E}[g(W;\theta)]=0$ 出發,對分布設定要求較鬆、穩健性較佳,但在訊息完整時效率不及 MLE——這是穩健性與效率的典型取捨。

貝氏觀點則把基率自然吸收進先驗:後驗 $p(\theta\mid \text{data})\propto p(\text{data}\mid\theta)\,p(\theta)$,基率謬誤無非是把先驗 $p(\theta)$ 設成均勻而不自知。在弱可識別或小樣本下,資訊性先驗能穩定後驗,而 Bernstein–von Mises 定理保證在正則條件與大樣本下後驗會趨近以 MLE 為中心、$I(\theta)^{-1}/n$ 為共變異的常態,使貝氏與頻率派漸近一致。

與機器學習及因果推論的連結尤為前沿。在 missing-not-at-random 或 covariate shift 下,倖存者偏差等同於訓練分布 $p_{\text{train}}(x)=p(x\mid S=1)$ 與部署分布 $p(x)$ 不一致,可用重要性加權 $w(x)=p(x)/p(x\mid S=1)$ 校正,前提是傾向 $P(S=1\mid x)$ 處處為正(positivity)。這正是因果推論中以反事實框架處理選擇偏差的核心:在可忽略性(ignorability)與重疊性假設下,逆機率加權(IPW)或雙重穩健估計量可還原無條件的目標估計量,而碰撞點(collider)上的條件化——對撞分層偏差——則在 DAG 語言中清楚刻畫了「為何條件在倖存上會憑空製造相關」。把這些工具看成同一條主線,倖存者偏差與基率謬誤便不再是零散的認知偏誤,而是選擇性條件化這個統一機制在不同情境下的投影。

AI 共讀助教正在陪你讀:倖存者偏差與基率謬誤:選擇性條件化的數學機制
嗨!我是這篇文章的共讀助教,只根據〈倖存者偏差與基率謬誤:選擇性條件化的數學機制〉的內容回答。可以問我「解釋某段」「舉個例子」「出題考我」,或反白文中段落後點下方「解釋選取段落」。