隨機對照試驗與準實驗設計：從潛在結果到因果識別

用 Neyman–Rubin 框架推導隨機化為何能消滅選擇偏誤，並理解準實驗設計放鬆假設的統計代價

進階 · 約 14 分鐘 ·#隨機對照試驗#準實驗設計#因果推論#潛在結果#差異中之差異#雙重穩健估計

從「比較」到「因果」：隨機化做了什麼

當我們看到「接受新教學法的班級平均成績較高」，直覺會想說新方法「有效」。但兩個班級在介入之前可能就不一樣——學習動機、先備知識、家庭背景。隨機對照試驗（Randomized Controlled Trial, RCT）的核心並非「公平」這種道德直覺，而是一個精準的統計斷言：隨機分派讓處理指派與潛在結果在機率上獨立，於是組間差異的期望值就等於因果效應。本文以 Neyman–Rubin 潛在結果框架（Potential Outcomes）為骨幹，推導為何隨機化能使簡單的均值差成為無偏估計，再說明當隨機化不可得時，準實驗設計（quasi-experimental design）如何在較弱的假設下逼近同一個目標。

隨機對照試驗與準實驗設計概念示意圖

潛在結果與因果效應的定義

對每位個體 $i$，定義兩個潛在結果：$Y_i(1)$ 為接受處理時的結果，$Y_i(0)$ 為未接受處理時的結果。個體層級的因果效應為 $\tau_i = Y_i(1) - Y_i(0)$。根本問題在於，我們對同一個體只能觀測到其中一個——這就是因果推論的「根本難題」（fundamental problem of causal inference）。觀測值寫成

$$Y_i = D_i\,Y_i(1) + (1-D_i)\,Y_i(0),$$

其中 $D_i \in \{0,1\}$ 為處理指派。我們退而求其次估計母體平均處理效應（Average Treatment Effect）：

$$\text{ATE} = \mathbb{E}[\tau_i] = \mathbb{E}[Y_i(1) - Y_i(0)].$$

樸素估計量是兩組樣本均值差 $\hat{\Delta} = \bar{Y}_{D=1} - \bar{Y}_{D=0}$。它在估計什麼？對任意指派機制，

$$\mathbb{E}[Y_i \mid D_i=1] - \mathbb{E}[Y_i \mid D_i=0] = \underbrace{\mathbb{E}[Y_i(1)\mid D_i=1] - \mathbb{E}[Y_i(0)\mid D_i=1]}_{\text{ATT}} + \underbrace{\mathbb{E}[Y_i(0)\mid D_i=1] - \mathbb{E}[Y_i(0)\mid D_i=0]}_{\text{選擇偏誤}}.$$

第二項「選擇偏誤」量化了兩組在「未處理時本來就有的差異」。觀察性資料之所以不可信，正是因為這一項通常非零。

隨機化如何消滅選擇偏誤

隨機分派的數學意義是讓指派 $D_i$ 與潛在結果向量 $(Y_i(0), Y_i(1))$ 獨立：

$$(Y_i(0), Y_i(1)) \perp D_i.$$

由此立刻得到 $\mathbb{E}[Y_i(0)\mid D_i=1] = \mathbb{E}[Y_i(0)\mid D_i=0] = \mathbb{E}[Y_i(0)]$，選擇偏誤項歸零；同時 ATT 與 ATE 重合。於是

$$\mathbb{E}[\hat{\Delta}] = \mathbb{E}[Y_i(1)] - \mathbb{E}[Y_i(0)] = \text{ATE}.$$

均值差成為無偏估計量。注意這裡並不需要假設 $\tau_i$ 為常數，也不需要結果常態——無偏性只來自獨立性。這正是 Fisher 與 Neyman 在 1920–1930 年代奠定的洞見：隨機化把混淆（confounding）從「需要建模的東西」轉化為「設計上已被機率控制的東西」。

進一步看變異數。在 Neyman 的有限母體框架下，設兩組樣本數為 $n_1, n_0$，潛在結果變異數分別為 $S_1^2, S_0^2$，則 $\hat{\Delta}$ 的抽樣變異數有保守上界

$$\operatorname{Var}(\hat{\Delta}) \le \frac{S_1^2}{n_1} + \frac{S_0^2}{n_0}.$$

之所以是上界而非等號，是因為真正的變異數還含一項與個體效應異質性 $S_\tau^2$ 有關的修正，但該項不可被估計，故實務上採用保守估計，這也保證了 $t$ 檢定的型一錯誤不會被低估。

一個定量小範例

假設一項閱讀介入研究，處理組 $n_1=50$，平均後測分數 $\bar{Y}_1 = 78$、樣本標準差 $s_1 = 12$；控制組 $n_0=50$，$\bar{Y}_0 = 72$、$s_0 = 10$。

效果估計：$\hat{\Delta} = 78 - 72 = 6$ 分。

標準誤：

$$\widehat{\operatorname{SE}} = \sqrt{\frac{s_1^2}{n_1} + \frac{s_0^2}{n_0}} = \sqrt{\frac{144}{50} + \frac{100}{50}} = \sqrt{2.88 + 2.00} = \sqrt{4.88} \approx 2.209.$$

檢定統計量 $t = 6 / 2.209 \approx 2.716$，自由度以 Welch 近似約 95，雙尾 $p \approx 0.0078 < 0.05$。

95% 信賴區間：$6 \pm 1.985 \times 2.209 = 6 \pm 4.385 = [1.62,\ 10.38]$。

標準化效果量 Cohen's $d = 6 / \sqrt{(144+100)/2} = 6/\sqrt{122} \approx 0.543$，屬中等效果。

素養提醒：此 95% 信賴區間 $[1.62, 10.38]$ 的正確解讀是「在重複抽樣下，此類區間有 95% 機率涵蓋真值」，不是「真值有 95% 機率落在 $[1.62,10.38]$」。同理，$p=0.0078$ 是「若虛無假設為真，觀測到此等或更極端差異的機率」，不是「虛無為真的機率」，更不是效果大小本身。

準實驗設計：放鬆隨機化的代價

當倫理或現實使隨機分派不可行（如不能隨機指定誰抽菸、誰唸哪所大學），準實驗以特定識別假設替代隨機化：

差異中之差異（Difference-in-Differences, DiD）：觀測處理組與控制組在介入前後的結果，估計量為 $\hat{\tau}_{DiD} = (\bar{Y}_{1,post} - \bar{Y}_{1,pre}) - (\bar{Y}_{0,post} - \bar{Y}_{0,pre})$。核心是平行趨勢假設：若無介入，兩組結果的時間變化趨勢相同。它放鬆了「組間水準相同」，只要求「組間變化趨勢相同」，藉由前後相減消去不隨時間變動的混淆。
斷點迴歸（Regression Discontinuity, RDD）：當處理由某連續變項 $X$ 是否超過門檻 $c$ 決定（如分數達標才獲獎學金），在 $c$ 附近個體「幾乎隨機」落於兩側，效果估計為 $\hat{\tau} = \lim_{x\downarrow c}\mathbb{E}[Y\mid X=x] - \lim_{x\uparrow c}\mathbb{E}[Y\mid X=x]$。識別只需結果的條件期望在 $c$ 處連續。
工具變數（Instrumental Variables, IV）：以一個影響處理、但僅透過處理影響結果（排除限制）的外生變項解決內生性。

準實驗的代價是：其無偏性取決於這些不可完全檢驗的假設。平行趨勢無法用前測資料證明只能旁證，排除限制更無法被資料反駁。因此準實驗的結論強度本質上弱於 RCT——估計式相同，但支撐它的信念基礎不同。

深入探討（研究所視角）

從漸近理論看，均值差估計量 $\hat{\Delta}$ 的合理性可由中央極限定理保證：在 i.i.d. 與有限二階動差下，$\sqrt{n}(\hat{\Delta} - \tau) \xrightarrow{d} \mathcal{N}(0, V)$，其中 $V = \sigma_1^2/\pi + \sigma_0^2/(1-\pi)$，$\pi$ 為處理比例。更現代的視角把它放進半參數效率框架：ATE 的效率界（efficiency bound）由 Hahn (1998) 給出，其影響函數（influence function）涉及傾向分數 $e(x)=\Pr(D=1\mid X=x)$ 與結果迴歸 $\mu_d(x)=\mathbb{E}[Y\mid D=d, X=x]$。著名的雙重穩健（doubly robust / AIPW）估計量

$$\hat{\tau}_{DR} = \frac{1}{n}\sum_i \left[ \mu_1(X_i) - \mu_0(X_i) + \frac{D_i(Y_i-\mu_1(X_i))}{\hat{e}(X_i)} - \frac{(1-D_i)(Y_i-\mu_0(X_i))}{1-\hat{e}(X_i)} \right]$$

只要傾向分數模型「或」結果模型其一正確即一致，且在兩者皆對時達到效率界。這把因果推論與估計理論縫合在一起。

最大概似與動差法的對應在此清晰可見：傾向分數的 logistic 估計即一個 MLE，而 AIPW 的兩個殘差校正項本質上是矩條件（moment conditions），可置於 GMM 框架統一處理，並由 Neyman 正交性（orthogonality）保證對 nuisance 參數的一階不敏感——這正是 Chernozhukov 等人提出的 Double/Debiased Machine Learning（DML） 的理論支柱：用交叉擬合（cross-fitting）以隨機森林、梯度提升或神經網路估計 $e(x)$ 與 $\mu_d(x)$，仍能對 $\tau$ 取得 $\sqrt{n}$-一致且漸近常態的推論。機器學習在此扮演的是「估計高維 nuisance」的角色，而非直接預測效果，避免了正則化偏誤污染因果參數。

貝氏對應則把潛在結果視為缺失資料：$Y_i(1-D_i)$ 是未觀測量，可在指定先驗與概似後以資料增補（data augmentation）對其積分，得到 ATE 的後驗分布。此觀點（Rubin, 1978）的優點是自然量化不確定性並可納入階層結構（如多校隨機效果），代價是結論對先驗敏感，且「可忽略性」（ignorability）仍是不可繞過的識別假設——無論貝氏或頻率派，沒有任何運算能憑空製造出資料中不存在的反事實資訊。異質效果（CATE, $\tau(x)=\mathbb{E}[\tau_i\mid X=x]$）的估計則延伸出 causal forest、X-learner、R-learner 等方法，將「平均一個數」推進到「為誰、在何條件下有效」，這也是當前因果機器學習最活躍的前沿。

← 上一篇

好資料始於好設計：隨機分派、對照組與盲法

A/B 測試與線上實驗：從隨機化到嚴謹的因果推論

--

1

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings