Home
探索 Uedu
學生控制台
註冊會員/登入
研究知情同意中心
教師控制台
課程設定
支援與訊息
Uptime 數據

UeduGPTs

--

Jupyters

2

UG26 CISOSE26
臺北 AQI 26 · 臺中 AQI 19 · 臺南 AQI 18 · 高雄 AQI 17

AI 回覆桌面通知

AI 助教回覆完成時顯示桌面通知

聊天訊息通知

同學在討論區發送訊息時通知

聲音通知

每當有新通知時播放提示音

實驗設計

A/B 測試與線上實驗:從隨機化到嚴謹的因果推論

差異估計量的變異數推導、樣本量規劃、序貫檢定陷阱,以及通往 CUPED、貝氏與因果機器學習的進階視角

從「改個按鈕顏色」到嚴謹的因果推論

把網站上的按鈕從藍色換成綠色,轉換率到底有沒有提升?直覺上我們會比較兩組數字,但「看起來有差」不等於「真的有差」。A/B 測試之所以是線上實驗的黃金標準,正是因為它把這個直覺問題,轉化為一個有明確估計量、明確誤差結構、明確顯著性判準的隨機化實驗。本文針對已具備統計基礎的讀者,從隨機化的因果意義出發,推導常用的估計量與其變異數,並討論樣本量、序貫檢定與常見的推論陷阱。

A/B 測試的核心是 Neyman–Rubin 潛在結果框架。對使用者 $i$,令 $Y_i(1)$ 為其被分到處理組(B 版)時的結果、$Y_i(0)$ 為分到控制組(A 版)時的結果。我們真正想估計的是平均處理效應(ATE):

$$\tau = \mathbb{E}[Y_i(1) - Y_i(0)].$$

問題在於每位使用者只會看到一個版本,$Y_i(1)$ 與 $Y_i(0)$ 不可能同時觀測——這就是因果推論的根本難題。隨機分組 $Z_i \in \{0,1\}$ 的關鍵作用,是讓分組與潛在結果獨立,$Z_i \perp (Y_i(0), Y_i(1))$,於是組間差異就能無偏地還原 $\tau$。

A/B 測試與線上實驗概念示意圖

差異估計量與其變異數

在隨機化下,最自然的估計量是兩組樣本均值之差。設控制組有 $n_A$ 人、處理組有 $n_B$ 人,觀測結果 $Y_i = Z_i Y_i(1) + (1-Z_i) Y_i(0)$,則

$$\hat{\tau} = \bar{Y}_B - \bar{Y}_A = \frac{1}{n_B}\sum_{i:Z_i=1} Y_i - \frac{1}{n_A}\sum_{i:Z_i=0} Y_i.$$

由獨立隨機分配,$\mathbb{E}[\bar{Y}_B] = \mathbb{E}[Y_i(1)]$、$\mathbb{E}[\bar{Y}_A] = \mathbb{E}[Y_i(0)]$,故 $\mathbb{E}[\hat{\tau}] = \tau$,此估計量無偏。兩組相互獨立,變異數可加:

$$\operatorname{Var}(\hat{\tau}) = \frac{\sigma_B^2}{n_B} + \frac{\sigma_A^2}{n_A},$$

其中 $\sigma_A^2, \sigma_B^2$ 分別為兩組結果的母體變異數。實務上以樣本變異數 $s_A^2, s_B^2$ 估計,得到標準誤

$$\widehat{\operatorname{SE}}(\hat{\tau}) = \sqrt{\frac{s_B^2}{n_B} + \frac{s_A^2}{n_A}}.$$

當結果是二元轉換(點擊/未點擊),$Y_i \sim \text{Bernoulli}(p)$,變異數有封閉形式 $\sigma^2 = p(1-p)$。此時

$$\widehat{\operatorname{SE}}(\hat{\tau}) = \sqrt{\frac{\hat{p}_B(1-\hat{p}_B)}{n_B} + \frac{\hat{p}_A(1-\hat{p}_A)}{n_A}}.$$

依中央極限定理,當樣本夠大時 $\hat{\tau}$ 近似常態,檢定統計量

$$Z = \frac{\hat{\tau}}{\widehat{\operatorname{SE}}(\hat{\tau})} \xrightarrow{d} \mathcal{N}(0,1) \quad (\text{在 } H_0: \tau = 0 \text{ 下}),$$

可用來計算雙尾 p 值或建構 $\hat{\tau} \pm z_{1-\alpha/2}\,\widehat{\operatorname{SE}}(\hat{\tau})$ 的信賴區間。

樣本量規劃與檢定力

實驗開跑前必須先回答「要收多少樣本」。在等分組($n_A = n_B = n$)、共同變異數 $\sigma^2$、欲偵測的最小效應 $\delta$ 之下,控制型 I 錯誤 $\alpha$ 與型 II 錯誤 $\beta$(檢定力 $1-\beta$),每組所需樣本量為

$$n = \frac{2\sigma^2 (z_{1-\alpha/2} + z_{1-\beta})^2}{\delta^2}.$$

這條公式揭示三個核心權衡:所需樣本量與變異數成正比、與效應量平方成反比、與顯著與檢定力門檻的 $z$ 值平方成正比。線上實驗常見「效應很小」(例如轉換率僅提升 0.5 個百分點),$\delta$ 一小,$n$ 就以平方速率暴增,這也是為何大型平台動輒需要數十萬流量。

定量小範例

某課程平台測試新版註冊頁。控制組 A:$n_A = 5000$,註冊數 $1000$,故 $\hat{p}_A = 0.20$。處理組 B:$n_B = 5000$,註冊數 $1120$,故 $\hat{p}_B = 0.224$。

第一步,效應估計:

$$\hat{\tau} = 0.224 - 0.20 = 0.024.$$

第二步,各組變異數項:

$$\frac{\hat{p}_A(1-\hat{p}_A)}{n_A} = \frac{0.20 \times 0.80}{5000} = 3.20\times10^{-5},$$

$$\frac{\hat{p}_B(1-\hat{p}_B)}{n_B} = \frac{0.224 \times 0.776}{5000} = 3.476\times10^{-5}.$$

第三步,標準誤:

$$\widehat{\operatorname{SE}}(\hat{\tau}) = \sqrt{3.20\times10^{-5} + 3.476\times10^{-5}} = \sqrt{6.676\times10^{-5}} \approx 0.00817.$$

第四步,檢定統計量:

$$Z = \frac{0.024}{0.00817} \approx 2.94.$$

對應雙尾 p 值約 $0.0033 < 0.05$,拒絕虛無假設。95% 信賴區間為

$$0.024 \pm 1.96 \times 0.00817 = (0.0080,\ 0.0400),$$

即新版約提升 0.8 到 4.0 個百分點。注意:信賴區間不含 0,與顯著性結論一致;但這條區間的正確解讀是「若實驗無限重複,95% 的同類區間會覆蓋真值」,而非「真值有 95% 機率落在此區間」。

推論陷阱與統計素養

第一,別把 p 值當成「效果為真的機率」。$p = 0.0033$ 的意思是「若真的沒有效應,觀察到這麼極端或更極端結果的機率僅 0.33%」,它不是 $\Pr(H_0 \mid \text{資料})$。

第二,偷看資料(peeking)會膨脹型 I 錯誤。固定樣本量的 p 值門檻假設你只在收滿後檢定一次。若每天都看、一達標就喊停,實際的偽陽性率遠高於名目 $\alpha$。解法是序貫檢定或 always-valid 信賴序列。

第三,多重比較。同時測 10 個指標,至少一個假陽性的機率約 $1-(1-0.05)^{10} \approx 0.40$,需用 Bonferroni 或 FDR 校正。

第四,SUTVA 與干擾。社群、共乘、廣告競價等場景中,處理 A 使用者會影響 B 使用者,潛在結果不再彼此獨立,簡單 A/B 會有偏誤,需要叢集隨機化或切換式設計。

深入探討(研究所視角)

把差異估計量放進更一般的框架,會看到它其實是一個 M-估計量(M-estimator)。將 $\hat{\tau}$ 寫成迴歸 $Y_i = \beta_0 + \tau Z_i + \varepsilon_i$ 的 OLS 係數,由 M-估計理論可得 $\sqrt{n}(\hat{\tau} - \tau) \xrightarrow{d} \mathcal{N}(0, V)$,其中 $V$ 由 $A^{-1} B A^{-1}$ 形式的三明治變異數給出。隨機化保證一致性與漸近常態,這也是為何即使誤差異方差(heteroskedasticity,二元結果必然如此),仍應採用 Huber–White 穩健標準誤而非古典 OLS 標準誤。進一步地,加入共變量做迴歸調整可降低殘差變異數而提升精度;Lin(2013)證明只要納入處理與共變量的交互項,調整後估計量在隨機化下漸近上不會比簡單差異更差,且通常更有效率——這就是業界 CUPED(用實驗前指標當共變量)的理論根基,其變異數縮減比例約為 $1-\rho^2$,$\rho$ 為實驗前後指標的相關係數。

最大概似(MLE)視角下,二元結果的對數似然為 $\ell(p) = \sum_i [y_i \log p + (1-y_i)\log(1-p)]$,解 $\partial \ell / \partial p = 0$ 得 $\hat{p} = \bar{Y}$,恰為樣本比例。Fisher 資訊 $I(p) = n/[p(1-p)]$,其倒數 $p(1-p)/n$ 正是前面變異數的來源——可見 MLE 漸近達到 Cramér–Rao 下界,差異估計量在這個意義上是有效率的。動差法(MoM)在此與 MLE 重合,但在更複雜的結果分布(如收益的重尾、零膨脹)下兩者分歧,此時需要穩健或半參數估計。

貝氏對應則把問題轉為後驗推論。對轉換率採 Beta 共軛先驗 $p \sim \text{Beta}(\alpha_0, \beta_0)$,觀測到 $s$ 次成功、$f$ 次失敗後,後驗為 $\text{Beta}(\alpha_0 + s, \beta_0 + f)$。我們可直接計算決策相關的量 $\Pr(p_B > p_A \mid \text{資料})$,這比 p 值更貼近商業決策語言,也天然支援序貫更新而不膨脹錯誤率——這是 Thompson sampling 等多臂吃角子老虎(multi-armed bandit)演算法的基礎,能在實驗進行中動態把更多流量導向較優版本,以「探索—利用」權衡取代固定分組。

最後,A/B 測試是因果推論與機器學習交會的前沿。當實驗有不完全遵從(intention-to-treat 與 local ATE 的差異)時,可用工具變量;當關心的是異質處理效應 $\tau(x) = \mathbb{E}[Y(1)-Y(0)\mid X=x]$ 時,causal forest、雙重穩健(doubly robust)與 double/debiased machine learning(Chernozhukov 等)能在用機器學習估計干擾函數的同時,保留 $\hat{\tau}$ 的 $\sqrt{n}$ 漸近常態與有效推論。這些方法的共同精神始終如一:隨機化提供無偏的識別基礎,統計理論則確保我們對不確定性的量化誠實可信。

AI 共讀助教正在陪你讀:A/B 測試與線上實驗:從隨機化到嚴謹的因果推論
嗨!我是這篇文章的共讀助教,只根據〈A/B 測試與線上實驗:從隨機化到嚴謹的因果推論〉的內容回答。可以問我「解釋某段」「舉個例子」「出題考我」,或反白文中段落後點下方「解釋選取段落」。