混淆變數、DAG 與因果推論：從後門準則到去偏機器學習

用結構因果模型與調整公式，理解「該調整什麼、為什麼這樣調整」

進階 · 約 14 分鐘 ·#因果推論#混淆變數#DAG#後門準則#潛在結果#傾向分數

從「調整哪些變數」到「為什麼這樣調整」

當我們觀察到吸菸者的肺癌率較高，直覺會說「吸菸導致肺癌」。但一位謹慎的統計學家會立刻反問：是否存在某個共同原因——例如某種基因型——同時推高了吸菸傾向與罹癌風險？這就是混淆（confounding）的核心。傳統做法是「把混淆變數放進迴歸控制掉」，但這個操作背後的合理性，必須建立在一套關於因果結構的語言之上。本文以結構因果模型（Structural Causal Model, SCM）與有向無環圖（Directed Acyclic Graph, DAG）為骨架，說明何時調整、調整什麼、以及調整錯了會發生什麼。

混淆變數、DAG 與因果推論概念示意圖

潛在結果與因果效應的定義

令 $T \in \{0,1\}$ 為處理（treatment），$Y$ 為結果。Neyman–Rubin 框架為每個個體定義一對潛在結果 $Y(1), Y(0)$，分別代表「若接受處理」與「若未接受處理」的結果。個體因果效應為 $Y_i(1) - Y_i(0)$，但我們對同一個體永遠只觀察到其一（$Y = T\,Y(1) + (1-T)\,Y(0)$），此即因果推論的根本問題。因此目標轉向平均處理效應（ATE）：

$$ \tau = \mathbb{E}[Y(1) - Y(0)]. $$

關鍵在於，觀測到的群組差異

$$ \mathbb{E}[Y \mid T=1] - \mathbb{E}[Y \mid T=0] = \underbrace{\mathbb{E}[Y(1)\mid T=1] - \mathbb{E}[Y(0)\mid T=1]}_{\text{處理組的因果效應}} + \underbrace{\mathbb{E}[Y(0)\mid T=1] - \mathbb{E}[Y(0)\mid T=0]}_{\text{選擇偏誤 (confounding bias)}}. $$

第二項即混淆偏誤：當處理組與對照組在「無處理時的基線」就不同，純粹比較均值會把這個差異誤算成處理效果。要讓它消失，需要可忽略性（ignorability）假設 $\{Y(1), Y(0)\} \perp T \mid X$，即在給定共變數 $X$ 後處理分派與潛在結果獨立。

DAG、d-分離與後門準則

SCM 把每個變數寫成其父節點的函數加獨立雜訊，$V_j = f_j(\mathrm{pa}_j, U_j)$，並對應一張 DAG。Pearl 的 do-運算子 $\mathbb{E}[Y \mid do(T=t)]$ 表示對 $T$ 施加外部介入（剪斷所有指向 $T$ 的箭頭）後的期望，這正是 $\mathbb{E}[Y(t)]$ 的圖論版本。

混淆的圖論定義非常精準：$T$ 與 $Y$ 之間存在一條後門路徑（backdoor path，即起點箭頭指入 $T$ 的非因果路徑）。經典結構是 $T \leftarrow X \rightarrow Y$，$X$ 同時影響處理與結果。後門準則指出：若一組變數 $Z$ (1) 不含 $T$ 的任何後代，(2) 阻斷 $T$ 與 $Y$ 之間所有後門路徑，則

$$ \mathbb{E}[Y \mid do(T=t)] = \mathbb{E}_{Z}\big[\,\mathbb{E}[Y \mid T=t, Z]\,\big]. $$

這就是調整公式（adjustment formula），它把不可觀測的介入分布化約為可由觀測資料估計的條件期望加權平均。阻斷的判準是 d-分離：對撞點（collider，$A \rightarrow C \leftarrow B$）在「未被條件化」時阻斷路徑，而鏈狀 / 分岔節點在「被條件化」時阻斷路徑。

這帶出兩個著名陷阱。其一，對撞偏誤：若你錯誤地調整一個對撞點（或其後代），反而會打開一條原本封閉的路徑，憑空製造出 $T$ 與 $Y$ 的關聯（Berkson 悖論）。其二，過度控制：若 $M$ 是中介（$T \rightarrow M \rightarrow Y$），調整 $M$ 會把處理效果的一部分擋掉，估到的不再是總效應。換言之，「放越多變數越安全」是徹底的誤解——調整集合必須由 DAG 結構決定，而非由「手邊有哪些欄位」決定。

定量小範例：辛普森悖論與調整

考慮某新療法 $T$ 對康復率 $Y$ 的影響，混淆變數為病情嚴重度 $X$（輕症 / 重症）。原始資料如下（人數與康復率）：

群組	接受新療法 $T=1$	接受舊療法 $T=0$
輕症 ($X=0$)	81/87 = 0.93	234/270 = 0.87
重症 ($X=1$)	192/263 = 0.73	55/80 = 0.69

不調整的整體康復率：

$$ \Pr(Y=1\mid T=1) = \frac{81+192}{87+263} = \frac{273}{350} = 0.78,\quad \Pr(Y=1\mid T=0) = \frac{234+55}{270+80} = \frac{289}{350} = 0.83. $$

粗略比較顯示新療法較差（0.78 < 0.83）。但這是因為重症病人多被分到新療法。套用後門調整，以整體嚴重度分布 $\Pr(X)$ 為權重（$\Pr(X{=}0)=357/700=0.51$，$\Pr(X{=}1)=343/700=0.49$）：

$$ \mathbb{E}[Y\mid do(T{=}1)] = 0.93(0.51) + 0.73(0.49) = 0.474 + 0.358 = 0.832, $$ $$ \mathbb{E}[Y\mid do(T{=}0)] = 0.87(0.51) + 0.69(0.49) = 0.444 + 0.338 = 0.782. $$

調整後的因果效應 $\hat\tau = 0.832 - 0.782 = +0.05$，新療法其實較佳。結論在調整前後完全反轉——這正是辛普森悖論。值得強調：能逆轉結論的，不是更花俏的演算法，而是 DAG 告訴我們 $X$ 是混淆而非中介，所以「必須」對它調整。若 $X$ 是處理後產生的中介，同樣的算術就會給出錯誤答案。

別把相關當因果，也別誤讀統計量

即使調整正確，估計仍受抽樣不確定性影響。$\hat\tau$ 的信賴區間描述的是「在重複抽樣下，區間涵蓋真值的頻率」，不是「真值落在此區間的機率為 95%」。同樣，一個顯著的 $p$ 值不證明因果——它只告訴你「若無關聯且模型假設成立，觀察到此等或更極端關聯的機率很小」，對混淆與模型設定錯誤完全無能為力。因果結論的可信度，最終取決於那張 DAG（即無未測混淆等假設）是否站得住腳，而這是領域知識問題，無法由資料本身檢驗。

深入探討（研究所視角）

調整公式只是起點；研究所層級關注的是估計量的效率與穩健性。當共變數 $X$ 為高維或連續，直接分層失效，常改用逆機率加權（IPW），以傾向分數 $e(X)=\Pr(T=1\mid X)$ 重新加權：$\hat\tau_{\text{IPW}} = \frac{1}{n}\sum_i \big(\frac{T_i Y_i}{\hat e(X_i)} - \frac{(1-T_i)Y_i}{1-\hat e(X_i)}\big)$。此估計量在 $e$ 正確設定下一致，但對 $\hat e$ 接近 0 或 1 極度敏感，變異數可能爆炸。雙重穩健（doubly robust / AIPW）估計量結合結果迴歸 $\mu_t(X)=\mathbb{E}[Y\mid T{=}t,X]$ 與傾向分數，其影響函數為

$$ \psi(O) = \mu_1(X)-\mu_0(X) + \frac{T(Y-\mu_1(X))}{e(X)} - \frac{(1-T)(Y-\mu_0(X))}{1-e(X)}, $$

只要 $\hat\mu$ 或 $\hat e$ 其一正確即一致，且具有 Neyman 正交性：對冗餘參數（nuisance）的一階擾動不影響目標估計，這使我們能把 $\mu, e$ 交給機器學習（隨機森林、梯度提升、深度網路）估計，而 ATE 仍保有 $\sqrt n$-一致與漸近常態。這正是 Chernozhukov 等人雙重/去偏機器學習（DML）的核心，搭配交叉擬合（cross-fitting）以消除過度配適引入的偏誤。在正則條件下 $\sqrt{n}(\hat\tau-\tau) \xrightarrow{d} \mathcal{N}(0, V)$，其中 $V$ 由有效影響函數的變異數給出，並達到半參數效率下界。

從估計理論的譜系看，分層調整是動差法（method of moments）的特例；參數模型下的最大概似（MLE）則在模型正確時達到 Cramér–Rao 下界，但對設定錯誤毫無保護，這正是現代因果推論偏好半參數、無母數方法的理由。

貝氏對應提供另一視角：把潛在結果視為缺失資料，對 $(Y(0),Y(1))$ 的聯合分布與傾向機制設先驗，透過後驗預測分布對未觀測潛在結果做多重插補（Rubin 的貝氏因果推論觀點）。其優點是自然量化不確定性並可融入先驗資訊，代價是後驗對先驗與模型設定的敏感性，且若忽略傾向分數的「弱可忽略性」結構，可能得到病態後驗。

更前沿的議題包括：敏感度分析（如 $E$-value、Rosenbaum 界限）量化結論對「未測混淆強度」的承受度，承認 DAG 永遠無法被資料完全驗證；工具變數與斷點迴歸在無法封閉後門時，藉外生變異識別局部處理效應（LATE）；以及異質處理效應估計（causal forest、meta-learners、表徵學習）將 ATE 推廣到條件平均處理效應 $\tau(x)=\mathbb{E}[Y(1)-Y(0)\mid X=x]$，使因果推論與監督式學習在影響函數與正交性的語言下真正接軌。貫穿這一切的訊息始終一致：演算法決定估得多準，而 DAG 與識別假設決定估的到底是不是因果。

← 上一篇

相關不等於因果：當數字手牽手卻互不相干

辛普森悖論的深入剖析：當分層與聚合給出相反結論

--

1

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings