相關不等於因果:當數字手牽手卻互不相干
從冰淇淋與溺水的假相關,到混淆變數、辛普森悖論與因果推論
從「冰淇淋與溺水」說起
每年夏天,冰淇淋的銷量會上升,海邊溺水的人數也會上升。如果我們把這兩個數字畫成散布圖,會發現它們高度相關:冰淇淋賣得越多,溺水事件越多。那麼,我們是不是該禁止賣冰淇淋來拯救生命?
當然不是。真正的原因是「氣溫」——天氣熱,大家既愛吃冰,也更常去玩水。氣溫同時推高了這兩個數字,讓它們看起來「手牽手一起變動」,但彼此之間其實沒有直接的因果關係。
這就是統計學裡最重要、也最常被忽略的一句話:相關不等於因果(correlation does not imply causation)。這篇讀本要帶你理解相關係數怎麼算、為什麼相關會「騙人」,以及統計學家用什麼工具把真正的因果關係從一堆數字裡找出來。

相關係數:把「一起變動」變成一個數字
衡量兩個變數線性相關程度最常用的工具,是皮爾森相關係數(Pearson correlation coefficient),記作 $r$:
$$r = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2}\,\sqrt{\sum_{i=1}^{n}(y_i - \bar{y})^2}}$$
$r$ 的值介於 $-1$ 到 $+1$ 之間:接近 $+1$ 表示「一個變大、另一個也變大」的正相關;接近 $-1$ 表示「一個變大、另一個變小」的負相關;接近 $0$ 表示幾乎沒有線性關係。
我們用一個迷你例子算一次。假設我們蒐集了 5 位同學每週讀書時數 $x$ 與小考分數 $y$:
| 同學 | $x$(時數) | $y$(分數) |
|---|---|---|
| A | 1 | 50 |
| B | 2 | 60 |
| C | 3 | 65 |
| D | 4 | 70 |
| E | 5 | 80 |
先算平均數:$\bar{x} = \frac{1+2+3+4+5}{5} = 3$,$\bar{y} = \frac{50+60+65+70+80}{5} = 65$。
接著算各項離差的乘積與平方:
$$\sum (x_i-\bar{x})(y_i-\bar{y}) = (-2)(-15)+(-1)(-5)+0+(1)(5)+(2)(15) = 30+5+0+5+30 = 70$$
$$\sum (x_i-\bar{x})^2 = 4+1+0+1+4 = 10, \qquad \sum (y_i-\bar{y})^2 = 225+25+0+25+225 = 500$$
代入公式:
$$r = \frac{70}{\sqrt{10}\,\sqrt{500}} = \frac{70}{\sqrt{5000}} = \frac{70}{70.71} \approx 0.99$$
$r \approx 0.99$,非常接近 $1$,代表讀書時數與分數有極強的正相關。但請特別注意:這個數字只告訴我們「兩者一起變動」,並沒有證明「讀書讓分數上升」。也許是某些同學本來就比較認真,認真同時帶來「讀得多」和「考得好」——認真程度才是背後的推手。
混淆變數:藏在背後的「第三者」
像「氣溫」「認真程度」這種同時影響兩個變數、卻沒被我們納入分析的因素,統計學上稱為混淆變數(confounding variable),又叫干擾因子。混淆變數是「相關被誤當因果」最常見的元兇。
混淆會製造三種陷阱:
- 共同原因:氣溫同時造成冰淇淋與溺水,兩者只是「共同果」。
- 反向因果:到底是運動讓人健康,還是健康的人才有力氣運動?
- 純屬巧合:兩條毫無關係的曲線剛好同步起伏(資料越多越容易找到這種假相關)。
要排除混淆,最強的武器是隨機對照試驗(randomized controlled trial, RCT)。把受試者隨機分成實驗組與對照組,因為分組是擲骰子決定的,所有潛在混淆變數(年齡、認真程度、體質……)在兩組之間都會「平均掉」,於是兩組結果的差異就可以歸因於我們真正想測的那個原因。這正是新藥臨床試驗的黃金標準。
辛普森悖論:合併資料時的「翻盤」
混淆變數還會引發一個更詭異的現象——辛普森悖論(Simpson's paradox):在各個分組裡都成立的趨勢,把資料合併起來後竟然完全反轉。
舉個經典情境。某大學兩個科系的錄取率:
| 男生申請/錄取 | 女生申請/錄取 | |
|---|---|---|
| 甲系 | 80 / 48(60%) | 20 / 14(70%) |
| 乙系 | 20 / 2(10%) | 80 / 16(20%) |
| 合計 | 100 / 50(50%) | 100 / 30(30%) |
分開看,每一系女生的錄取率都比男生高(70% > 60%、20% > 10%)。但合計起來,女生整體錄取率(30%)反而比男生(50%)低。
為什麼?因為女生大量申請了「本身就難錄取」的乙系,男生則集中在好錄取的甲系。「申請的科系」就是混淆變數。如果只看合計數字就斷言「這所大學歧視女生」,會得出完全相反的錯誤結論。辛普森悖論提醒我們:合併資料前,一定要問「我是不是忽略了某個該分層的變數?」
那要怎麼談因果?
既然相關不可靠,現代統計與資料科學發展出一整套因果推論(causal inference)的方法:
- 隨機化:能做 RCT 就做,從源頭消滅混淆。
- 控制變數:在迴歸模型裡把已知的混淆變數放進去(例如分析讀書與成績時,把「智力測驗分數」也納入)。
- 分層分析:像辛普森悖論那樣,在每個子群組內分別比較。
- 自然實驗與工具變數:利用政策、地理等「接近隨機」的外部變化,逼近實驗條件。
下次再看到「研究發現喝咖啡的人比較長壽」這類新聞,請先問三件事:有沒有控制混淆變數?是相關還是因果?是不是觀察性研究(而非隨機試驗)?學會這三問,你就具備了真正的統計素養。
深入探討(研究所視角)
要把「因果」說清楚,需要超越相關係數的形式語言。Rubin 的潛在結果框架(potential outcomes / Neyman–Rubin causal model)為每個個體定義在處理與未處理下的兩個潛在結果 $Y_i(1)$、$Y_i(0)$,個體因果效應為 $\tau_i = Y_i(1) - Y_i(0)$。問題的根本困難在於我們只能觀察到其中一個,另一個是反事實,這即是因果推論的根本問題。平均處理效應 $\text{ATE} = \mathbb{E}[Y(1) - Y(0)]$ 只有在可忽略性假設(unconfoundedness,$\{Y(1),Y(0)\} \perp T \mid X$)與重疊性假設下才可由觀測資料識別,隨機分派正是讓 $T$ 獨立於潛在結果、從而使 $\mathbb{E}[Y\mid T=1]-\mathbb{E}[Y\mid T=0]$ 無偏估計 ATE 的機制。
Pearl 的結構因果模型(SCM)與有向無環圖(DAG)則提供另一套語言。透過 do-運算子 區分觀測分布 $P(Y\mid X)$ 與干預分布 $P(Y\mid do(X))$,並以 back-door 準則判定哪些變數須被控制以阻斷混淆路徑。混淆變數在圖上對應一個指向處理與結果的共同祖先;值得警惕的是對撞變數(collider):若錯誤地對撞點進行條件化(如只在「已住院」樣本內分析),反而會憑空製造出虛假相關,這稱為選擇偏誤(Berkson's paradox)。
估計層面,傾向分數 $e(x) = P(T=1\mid X=x)$ 的逆機率加權(IPW)估計量 $\hat{\tau} = \frac{1}{n}\sum \left(\frac{T_i Y_i}{\hat{e}(X_i)} - \frac{(1-T_i)Y_i}{1-\hat{e}(X_i)}\right)$ 在傾向分數正確設定下具一致性;而雙重穩健(doubly robust)估計量結合結果迴歸與傾向分數,只要兩個模型其一正確即可保持一致性,是有效性與穩健性的折衷。這些估計量的性質——不偏性、一致性、漸近常態與有效性——皆可在 M-估計或半參數理論框架下推導其漸近變異數與效率界限(如 semiparametric efficiency bound)。
最後,因果推論與機器學習正快速融合:因果森林(causal forest)估計異質處理效應 $\tau(x)$,雙重機器學習(double/debiased ML)用交叉擬合(cross-fitting)配合 Neyman 正交化,讓高維 nuisance 函數的估計誤差不污染目標參數的推論。這呼應了統計素養的核心警告——預測準確不等於因果有效。一個 $R^2$ 很高的模型可能完全沒有捕捉到任何可介入的因果機制,正如相關係數再大,也無法替代一個設計嚴謹的實驗或一張畫對的因果圖。