Home
探索 Uedu
學生控制台
註冊會員/登入
研究知情同意中心
教師控制台
課程設定
支援與訊息
Uptime 數據

UeduGPTs

--

Jupyters

2

UG26 CISOSE26
臺北 AQI 26 · 臺中 AQI 19 · 臺南 AQI 18 · 高雄 AQI 17

AI 回覆桌面通知

AI 助教回覆完成時顯示桌面通知

聊天訊息通知

同學在討論區發送訊息時通知

聲音通知

每當有新通知時播放提示音

實驗設計

隨機對照試驗與準實驗設計:從潛在結果到因果識別

用 Neyman–Rubin 框架推導隨機化為何能消滅選擇偏誤,並理解準實驗設計放鬆假設的統計代價

從「比較」到「因果」:隨機化做了什麼

當我們看到「接受新教學法的班級平均成績較高」,直覺會想說新方法「有效」。但兩個班級在介入之前可能就不一樣——學習動機、先備知識、家庭背景。隨機對照試驗(Randomized Controlled Trial, RCT)的核心並非「公平」這種道德直覺,而是一個精準的統計斷言:隨機分派讓處理指派與潛在結果在機率上獨立,於是組間差異的期望值就等於因果效應。本文以 Neyman–Rubin 潛在結果框架(Potential Outcomes)為骨幹,推導為何隨機化能使簡單的均值差成為無偏估計,再說明當隨機化不可得時,準實驗設計(quasi-experimental design)如何在較弱的假設下逼近同一個目標。

隨機對照試驗與準實驗設計概念示意圖

潛在結果與因果效應的定義

對每位個體 $i$,定義兩個潛在結果:$Y_i(1)$ 為接受處理時的結果,$Y_i(0)$ 為未接受處理時的結果。個體層級的因果效應為 $\tau_i = Y_i(1) - Y_i(0)$。根本問題在於,我們對同一個體只能觀測到其中一個——這就是因果推論的「根本難題」(fundamental problem of causal inference)。觀測值寫成

$$Y_i = D_i\,Y_i(1) + (1-D_i)\,Y_i(0),$$

其中 $D_i \in \{0,1\}$ 為處理指派。我們退而求其次估計母體平均處理效應(Average Treatment Effect):

$$\text{ATE} = \mathbb{E}[\tau_i] = \mathbb{E}[Y_i(1) - Y_i(0)].$$

樸素估計量是兩組樣本均值差 $\hat{\Delta} = \bar{Y}_{D=1} - \bar{Y}_{D=0}$。它在估計什麼?對任意指派機制,

$$\mathbb{E}[Y_i \mid D_i=1] - \mathbb{E}[Y_i \mid D_i=0] = \underbrace{\mathbb{E}[Y_i(1)\mid D_i=1] - \mathbb{E}[Y_i(0)\mid D_i=1]}_{\text{ATT}} + \underbrace{\mathbb{E}[Y_i(0)\mid D_i=1] - \mathbb{E}[Y_i(0)\mid D_i=0]}_{\text{選擇偏誤}}.$$

第二項「選擇偏誤」量化了兩組在「未處理時本來就有的差異」。觀察性資料之所以不可信,正是因為這一項通常非零。

隨機化如何消滅選擇偏誤

隨機分派的數學意義是讓指派 $D_i$ 與潛在結果向量 $(Y_i(0), Y_i(1))$ 獨立:

$$(Y_i(0), Y_i(1)) \perp D_i.$$

由此立刻得到 $\mathbb{E}[Y_i(0)\mid D_i=1] = \mathbb{E}[Y_i(0)\mid D_i=0] = \mathbb{E}[Y_i(0)]$,選擇偏誤項歸零;同時 ATT 與 ATE 重合。於是

$$\mathbb{E}[\hat{\Delta}] = \mathbb{E}[Y_i(1)] - \mathbb{E}[Y_i(0)] = \text{ATE}.$$

均值差成為無偏估計量。注意這裡並不需要假設 $\tau_i$ 為常數,也不需要結果常態——無偏性只來自獨立性。這正是 Fisher 與 Neyman 在 1920–1930 年代奠定的洞見:隨機化把混淆(confounding)從「需要建模的東西」轉化為「設計上已被機率控制的東西」。

進一步看變異數。在 Neyman 的有限母體框架下,設兩組樣本數為 $n_1, n_0$,潛在結果變異數分別為 $S_1^2, S_0^2$,則 $\hat{\Delta}$ 的抽樣變異數有保守上界

$$\operatorname{Var}(\hat{\Delta}) \le \frac{S_1^2}{n_1} + \frac{S_0^2}{n_0}.$$

之所以是上界而非等號,是因為真正的變異數還含一項與個體效應異質性 $S_\tau^2$ 有關的修正,但該項不可被估計,故實務上採用保守估計,這也保證了 $t$ 檢定的型一錯誤不會被低估。

一個定量小範例

假設一項閱讀介入研究,處理組 $n_1=50$,平均後測分數 $\bar{Y}_1 = 78$、樣本標準差 $s_1 = 12$;控制組 $n_0=50$,$\bar{Y}_0 = 72$、$s_0 = 10$。

效果估計:$\hat{\Delta} = 78 - 72 = 6$ 分。

標準誤:

$$\widehat{\operatorname{SE}} = \sqrt{\frac{s_1^2}{n_1} + \frac{s_0^2}{n_0}} = \sqrt{\frac{144}{50} + \frac{100}{50}} = \sqrt{2.88 + 2.00} = \sqrt{4.88} \approx 2.209.$$

檢定統計量 $t = 6 / 2.209 \approx 2.716$,自由度以 Welch 近似約 95,雙尾 $p \approx 0.0078 < 0.05$。

95% 信賴區間:$6 \pm 1.985 \times 2.209 = 6 \pm 4.385 = [1.62,\ 10.38]$。

標準化效果量 Cohen's $d = 6 / \sqrt{(144+100)/2} = 6/\sqrt{122} \approx 0.543$,屬中等效果。

素養提醒:此 95% 信賴區間 $[1.62, 10.38]$ 的正確解讀是「在重複抽樣下,此類區間有 95% 機率涵蓋真值」,不是「真值有 95% 機率落在 $[1.62,10.38]$」。同理,$p=0.0078$ 是「若虛無假設為真,觀測到此等或更極端差異的機率」,不是「虛無為真的機率」,更不是效果大小本身。

準實驗設計:放鬆隨機化的代價

當倫理或現實使隨機分派不可行(如不能隨機指定誰抽菸、誰唸哪所大學),準實驗以特定識別假設替代隨機化:

  • 差異中之差異(Difference-in-Differences, DiD):觀測處理組與控制組在介入前後的結果,估計量為 $\hat{\tau}_{DiD} = (\bar{Y}_{1,post} - \bar{Y}_{1,pre}) - (\bar{Y}_{0,post} - \bar{Y}_{0,pre})$。核心是平行趨勢假設:若無介入,兩組結果的時間變化趨勢相同。它放鬆了「組間水準相同」,只要求「組間變化趨勢相同」,藉由前後相減消去不隨時間變動的混淆。
  • 斷點迴歸(Regression Discontinuity, RDD):當處理由某連續變項 $X$ 是否超過門檻 $c$ 決定(如分數達標才獲獎學金),在 $c$ 附近個體「幾乎隨機」落於兩側,效果估計為 $\hat{\tau} = \lim_{x\downarrow c}\mathbb{E}[Y\mid X=x] - \lim_{x\uparrow c}\mathbb{E}[Y\mid X=x]$。識別只需結果的條件期望在 $c$ 處連續。
  • 工具變數(Instrumental Variables, IV):以一個影響處理、但僅透過處理影響結果(排除限制)的外生變項解決內生性。

準實驗的代價是:其無偏性取決於這些不可完全檢驗的假設。平行趨勢無法用前測資料證明只能旁證,排除限制更無法被資料反駁。因此準實驗的結論強度本質上弱於 RCT——估計式相同,但支撐它的信念基礎不同。

深入探討(研究所視角)

從漸近理論看,均值差估計量 $\hat{\Delta}$ 的合理性可由中央極限定理保證:在 i.i.d. 與有限二階動差下,$\sqrt{n}(\hat{\Delta} - \tau) \xrightarrow{d} \mathcal{N}(0, V)$,其中 $V = \sigma_1^2/\pi + \sigma_0^2/(1-\pi)$,$\pi$ 為處理比例。更現代的視角把它放進半參數效率框架:ATE 的效率界(efficiency bound)由 Hahn (1998) 給出,其影響函數(influence function)涉及傾向分數 $e(x)=\Pr(D=1\mid X=x)$ 與結果迴歸 $\mu_d(x)=\mathbb{E}[Y\mid D=d, X=x]$。著名的雙重穩健(doubly robust / AIPW)估計量

$$\hat{\tau}_{DR} = \frac{1}{n}\sum_i \left[ \mu_1(X_i) - \mu_0(X_i) + \frac{D_i(Y_i-\mu_1(X_i))}{\hat{e}(X_i)} - \frac{(1-D_i)(Y_i-\mu_0(X_i))}{1-\hat{e}(X_i)} \right]$$

只要傾向分數模型「或」結果模型其一正確即一致,且在兩者皆對時達到效率界。這把因果推論與估計理論縫合在一起。

最大概似與動差法的對應在此清晰可見:傾向分數的 logistic 估計即一個 MLE,而 AIPW 的兩個殘差校正項本質上是矩條件(moment conditions),可置於 GMM 框架統一處理,並由 Neyman 正交性(orthogonality)保證對 nuisance 參數的一階不敏感——這正是 Chernozhukov 等人提出的 Double/Debiased Machine Learning(DML) 的理論支柱:用交叉擬合(cross-fitting)以隨機森林、梯度提升或神經網路估計 $e(x)$ 與 $\mu_d(x)$,仍能對 $\tau$ 取得 $\sqrt{n}$-一致且漸近常態的推論。機器學習在此扮演的是「估計高維 nuisance」的角色,而非直接預測效果,避免了正則化偏誤污染因果參數。

貝氏對應則把潛在結果視為缺失資料:$Y_i(1-D_i)$ 是未觀測量,可在指定先驗與概似後以資料增補(data augmentation)對其積分,得到 ATE 的後驗分布。此觀點(Rubin, 1978)的優點是自然量化不確定性並可納入階層結構(如多校隨機效果),代價是結論對先驗敏感,且「可忽略性」(ignorability)仍是不可繞過的識別假設——無論貝氏或頻率派,沒有任何運算能憑空製造出資料中不存在的反事實資訊。異質效果(CATE, $\tau(x)=\mathbb{E}[\tau_i\mid X=x]$)的估計則延伸出 causal forest、X-learner、R-learner 等方法,將「平均一個數」推進到「為誰、在何條件下有效」,這也是當前因果機器學習最活躍的前沿。

AI 共讀助教正在陪你讀:隨機對照試驗與準實驗設計:從潛在結果到因果識別
嗨!我是這篇文章的共讀助教,只根據〈隨機對照試驗與準實驗設計:從潛在結果到因果識別〉的內容回答。可以問我「解釋某段」「舉個例子」「出題考我」,或反白文中段落後點下方「解釋選取段落」。