相關不等於因果：當數字手牽手卻互不相干

從冰淇淋與溺水的假相關，到混淆變數、辛普森悖論與因果推論

高中｜大學銜接 · 約 11 分鐘 ·#相關係數#因果推論#混淆變數#辛普森悖論#統計素養

從「冰淇淋與溺水」說起

每年夏天，冰淇淋的銷量會上升，海邊溺水的人數也會上升。如果我們把這兩個數字畫成散布圖，會發現它們高度相關：冰淇淋賣得越多，溺水事件越多。那麼，我們是不是該禁止賣冰淇淋來拯救生命？

當然不是。真正的原因是「氣溫」——天氣熱，大家既愛吃冰，也更常去玩水。氣溫同時推高了這兩個數字，讓它們看起來「手牽手一起變動」，但彼此之間其實沒有直接的因果關係。

這就是統計學裡最重要、也最常被忽略的一句話：相關不等於因果（correlation does not imply causation）。這篇讀本要帶你理解相關係數怎麼算、為什麼相關會「騙人」，以及統計學家用什麼工具把真正的因果關係從一堆數字裡找出來。

相關與因果概念示意圖

相關係數：把「一起變動」變成一個數字

衡量兩個變數線性相關程度最常用的工具，是皮爾森相關係數（Pearson correlation coefficient），記作 $r$：

$$r = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2}\,\sqrt{\sum_{i=1}^{n}(y_i - \bar{y})^2}}$$

$r$ 的值介於 $-1$ 到 $+1$ 之間：接近 $+1$ 表示「一個變大、另一個也變大」的正相關；接近 $-1$ 表示「一個變大、另一個變小」的負相關；接近 $0$ 表示幾乎沒有線性關係。

我們用一個迷你例子算一次。假設我們蒐集了 5 位同學每週讀書時數 $x$ 與小考分數 $y$：

同學	$x$（時數）	$y$（分數）
A	1	50
B	2	60
C	3	65
D	4	70
E	5	80

先算平均數：$\bar{x} = \frac{1+2+3+4+5}{5} = 3$，$\bar{y} = \frac{50+60+65+70+80}{5} = 65$。

接著算各項離差的乘積與平方：

$$\sum (x_i-\bar{x})(y_i-\bar{y}) = (-2)(-15)+(-1)(-5)+0+(1)(5)+(2)(15) = 30+5+0+5+30 = 70$$

$$\sum (x_i-\bar{x})^2 = 4+1+0+1+4 = 10, \qquad \sum (y_i-\bar{y})^2 = 225+25+0+25+225 = 500$$

代入公式：

$$r = \frac{70}{\sqrt{10}\,\sqrt{500}} = \frac{70}{\sqrt{5000}} = \frac{70}{70.71} \approx 0.99$$

$r \approx 0.99$，非常接近 $1$，代表讀書時數與分數有極強的正相關。但請特別注意：這個數字只告訴我們「兩者一起變動」，並沒有證明「讀書讓分數上升」。也許是某些同學本來就比較認真，認真同時帶來「讀得多」和「考得好」——認真程度才是背後的推手。

混淆變數：藏在背後的「第三者」

像「氣溫」「認真程度」這種同時影響兩個變數、卻沒被我們納入分析的因素，統計學上稱為混淆變數（confounding variable），又叫干擾因子。混淆變數是「相關被誤當因果」最常見的元兇。

混淆會製造三種陷阱：

共同原因：氣溫同時造成冰淇淋與溺水，兩者只是「共同果」。
反向因果：到底是運動讓人健康，還是健康的人才有力氣運動？
純屬巧合：兩條毫無關係的曲線剛好同步起伏（資料越多越容易找到這種假相關）。

要排除混淆，最強的武器是隨機對照試驗（randomized controlled trial, RCT）。把受試者隨機分成實驗組與對照組，因為分組是擲骰子決定的，所有潛在混淆變數（年齡、認真程度、體質……）在兩組之間都會「平均掉」，於是兩組結果的差異就可以歸因於我們真正想測的那個原因。這正是新藥臨床試驗的黃金標準。

辛普森悖論：合併資料時的「翻盤」

混淆變數還會引發一個更詭異的現象——辛普森悖論（Simpson's paradox）：在各個分組裡都成立的趨勢，把資料合併起來後竟然完全反轉。

舉個經典情境。某大學兩個科系的錄取率：

	男生申請/錄取	女生申請/錄取
甲系	80 / 48（60%）	20 / 14（70%）
乙系	20 / 2（10%）	80 / 16（20%）
合計	100 / 50（50%）	100 / 30（30%）

分開看，每一系女生的錄取率都比男生高（70% > 60%、20% > 10%）。但合計起來，女生整體錄取率（30%）反而比男生（50%）低。

為什麼？因為女生大量申請了「本身就難錄取」的乙系，男生則集中在好錄取的甲系。「申請的科系」就是混淆變數。如果只看合計數字就斷言「這所大學歧視女生」，會得出完全相反的錯誤結論。辛普森悖論提醒我們：合併資料前，一定要問「我是不是忽略了某個該分層的變數？」

那要怎麼談因果？

既然相關不可靠，現代統計與資料科學發展出一整套因果推論（causal inference）的方法：

隨機化：能做 RCT 就做，從源頭消滅混淆。
控制變數：在迴歸模型裡把已知的混淆變數放進去（例如分析讀書與成績時，把「智力測驗分數」也納入）。
分層分析：像辛普森悖論那樣，在每個子群組內分別比較。
自然實驗與工具變數：利用政策、地理等「接近隨機」的外部變化，逼近實驗條件。

下次再看到「研究發現喝咖啡的人比較長壽」這類新聞，請先問三件事：有沒有控制混淆變數？是相關還是因果？是不是觀察性研究（而非隨機試驗）？學會這三問，你就具備了真正的統計素養。

深入探討（研究所視角）

要把「因果」說清楚，需要超越相關係數的形式語言。Rubin 的潛在結果框架（potential outcomes / Neyman–Rubin causal model）為每個個體定義在處理與未處理下的兩個潛在結果 $Y_i(1)$、$Y_i(0)$，個體因果效應為 $\tau_i = Y_i(1) - Y_i(0)$。問題的根本困難在於我們只能觀察到其中一個，另一個是反事實，這即是因果推論的根本問題。平均處理效應 $\text{ATE} = \mathbb{E}[Y(1) - Y(0)]$ 只有在可忽略性假設（unconfoundedness，$\{Y(1),Y(0)\} \perp T \mid X$）與重疊性假設下才可由觀測資料識別，隨機分派正是讓 $T$ 獨立於潛在結果、從而使 $\mathbb{E}[Y\mid T=1]-\mathbb{E}[Y\mid T=0]$ 無偏估計 ATE 的機制。

Pearl 的結構因果模型（SCM）與有向無環圖（DAG）則提供另一套語言。透過 do-運算子 區分觀測分布 $P(Y\mid X)$ 與干預分布 $P(Y\mid do(X))$，並以 back-door 準則判定哪些變數須被控制以阻斷混淆路徑。混淆變數在圖上對應一個指向處理與結果的共同祖先；值得警惕的是對撞變數（collider）：若錯誤地對撞點進行條件化（如只在「已住院」樣本內分析），反而會憑空製造出虛假相關，這稱為選擇偏誤（Berkson's paradox）。

估計層面，傾向分數 $e(x) = P(T=1\mid X=x)$ 的逆機率加權（IPW）估計量 $\hat{\tau} = \frac{1}{n}\sum \left(\frac{T_i Y_i}{\hat{e}(X_i)} - \frac{(1-T_i)Y_i}{1-\hat{e}(X_i)}\right)$ 在傾向分數正確設定下具一致性；而雙重穩健（doubly robust）估計量結合結果迴歸與傾向分數，只要兩個模型其一正確即可保持一致性，是有效性與穩健性的折衷。這些估計量的性質——不偏性、一致性、漸近常態與有效性——皆可在 M-估計或半參數理論框架下推導其漸近變異數與效率界限（如 semiparametric efficiency bound）。

最後，因果推論與機器學習正快速融合：因果森林（causal forest）估計異質處理效應 $\tau(x)$，雙重機器學習（double/debiased ML）用交叉擬合（cross-fitting）配合 Neyman 正交化，讓高維 nuisance 函數的估計誤差不污染目標參數的推論。這呼應了統計素養的核心警告——預測準確不等於因果有效。一個 $R^2$ 很高的模型可能完全沒有捕捉到任何可介入的因果機制，正如相關係數再大，也無法替代一個設計嚴謹的實驗或一張畫對的因果圖。

混淆變數、DAG 與因果推論：從後門準則到去偏機器學習

--

1

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings