A/B 測試與線上實驗：從隨機化到嚴謹的因果推論

差異估計量的變異數推導、樣本量規劃、序貫檢定陷阱，以及通往 CUPED、貝氏與因果機器學習的進階視角

進階 · 約 13 分鐘 ·#A/B測試#線上實驗#因果推論#假設檢定#樣本量#潛在結果框架

從「改個按鈕顏色」到嚴謹的因果推論

把網站上的按鈕從藍色換成綠色，轉換率到底有沒有提升？直覺上我們會比較兩組數字，但「看起來有差」不等於「真的有差」。A/B 測試之所以是線上實驗的黃金標準，正是因為它把這個直覺問題，轉化為一個有明確估計量、明確誤差結構、明確顯著性判準的隨機化實驗。本文針對已具備統計基礎的讀者，從隨機化的因果意義出發，推導常用的估計量與其變異數，並討論樣本量、序貫檢定與常見的推論陷阱。

A/B 測試的核心是 Neyman–Rubin 潛在結果框架。對使用者 $i$，令 $Y_i(1)$ 為其被分到處理組（B 版）時的結果、$Y_i(0)$ 為分到控制組（A 版）時的結果。我們真正想估計的是平均處理效應（ATE）：

$$\tau = \mathbb{E}[Y_i(1) - Y_i(0)].$$

問題在於每位使用者只會看到一個版本，$Y_i(1)$ 與 $Y_i(0)$ 不可能同時觀測——這就是因果推論的根本難題。隨機分組 $Z_i \in \{0,1\}$ 的關鍵作用，是讓分組與潛在結果獨立，$Z_i \perp (Y_i(0), Y_i(1))$，於是組間差異就能無偏地還原 $\tau$。

A/B 測試與線上實驗概念示意圖

差異估計量與其變異數

在隨機化下，最自然的估計量是兩組樣本均值之差。設控制組有 $n_A$ 人、處理組有 $n_B$ 人，觀測結果 $Y_i = Z_i Y_i(1) + (1-Z_i) Y_i(0)$，則

$$\hat{\tau} = \bar{Y}_B - \bar{Y}_A = \frac{1}{n_B}\sum_{i:Z_i=1} Y_i - \frac{1}{n_A}\sum_{i:Z_i=0} Y_i.$$

由獨立隨機分配，$\mathbb{E}[\bar{Y}_B] = \mathbb{E}[Y_i(1)]$、$\mathbb{E}[\bar{Y}_A] = \mathbb{E}[Y_i(0)]$，故 $\mathbb{E}[\hat{\tau}] = \tau$，此估計量無偏。兩組相互獨立，變異數可加：

$$\operatorname{Var}(\hat{\tau}) = \frac{\sigma_B^2}{n_B} + \frac{\sigma_A^2}{n_A},$$

其中 $\sigma_A^2, \sigma_B^2$ 分別為兩組結果的母體變異數。實務上以樣本變異數 $s_A^2, s_B^2$ 估計，得到標準誤

$$\widehat{\operatorname{SE}}(\hat{\tau}) = \sqrt{\frac{s_B^2}{n_B} + \frac{s_A^2}{n_A}}.$$

當結果是二元轉換（點擊／未點擊），$Y_i \sim \text{Bernoulli}(p)$，變異數有封閉形式 $\sigma^2 = p(1-p)$。此時

$$\widehat{\operatorname{SE}}(\hat{\tau}) = \sqrt{\frac{\hat{p}_B(1-\hat{p}_B)}{n_B} + \frac{\hat{p}_A(1-\hat{p}_A)}{n_A}}.$$

依中央極限定理，當樣本夠大時 $\hat{\tau}$ 近似常態，檢定統計量

$$Z = \frac{\hat{\tau}}{\widehat{\operatorname{SE}}(\hat{\tau})} \xrightarrow{d} \mathcal{N}(0,1) \quad (\text{在 } H_0: \tau = 0 \text{ 下}),$$

可用來計算雙尾 p 值或建構 $\hat{\tau} \pm z_{1-\alpha/2}\,\widehat{\operatorname{SE}}(\hat{\tau})$ 的信賴區間。

樣本量規劃與檢定力

實驗開跑前必須先回答「要收多少樣本」。在等分組（$n_A = n_B = n$）、共同變異數 $\sigma^2$、欲偵測的最小效應 $\delta$ 之下，控制型 I 錯誤 $\alpha$ 與型 II 錯誤 $\beta$（檢定力 $1-\beta$），每組所需樣本量為

$$n = \frac{2\sigma^2 (z_{1-\alpha/2} + z_{1-\beta})^2}{\delta^2}.$$

這條公式揭示三個核心權衡：所需樣本量與變異數成正比、與效應量平方成反比、與顯著與檢定力門檻的 $z$ 值平方成正比。線上實驗常見「效應很小」（例如轉換率僅提升 0.5 個百分點），$\delta$ 一小，$n$ 就以平方速率暴增，這也是為何大型平台動輒需要數十萬流量。

定量小範例

某課程平台測試新版註冊頁。控制組 A：$n_A = 5000$，註冊數 $1000$，故 $\hat{p}_A = 0.20$。處理組 B：$n_B = 5000$，註冊數 $1120$，故 $\hat{p}_B = 0.224$。

第一步，效應估計：

$$\hat{\tau} = 0.224 - 0.20 = 0.024.$$

第二步，各組變異數項：

$$\frac{\hat{p}_A(1-\hat{p}_A)}{n_A} = \frac{0.20 \times 0.80}{5000} = 3.20\times10^{-5},$$

$$\frac{\hat{p}_B(1-\hat{p}_B)}{n_B} = \frac{0.224 \times 0.776}{5000} = 3.476\times10^{-5}.$$

第三步，標準誤：

$$\widehat{\operatorname{SE}}(\hat{\tau}) = \sqrt{3.20\times10^{-5} + 3.476\times10^{-5}} = \sqrt{6.676\times10^{-5}} \approx 0.00817.$$

第四步，檢定統計量：

$$Z = \frac{0.024}{0.00817} \approx 2.94.$$

對應雙尾 p 值約 $0.0033 < 0.05$，拒絕虛無假設。95% 信賴區間為

$$0.024 \pm 1.96 \times 0.00817 = (0.0080,\ 0.0400),$$

即新版約提升 0.8 到 4.0 個百分點。注意：信賴區間不含 0，與顯著性結論一致；但這條區間的正確解讀是「若實驗無限重複，95% 的同類區間會覆蓋真值」，而非「真值有 95% 機率落在此區間」。

推論陷阱與統計素養

第一，別把 p 值當成「效果為真的機率」。$p = 0.0033$ 的意思是「若真的沒有效應，觀察到這麼極端或更極端結果的機率僅 0.33%」，它不是 $\Pr(H_0 \mid \text{資料})$。

第二，偷看資料（peeking）會膨脹型 I 錯誤。固定樣本量的 p 值門檻假設你只在收滿後檢定一次。若每天都看、一達標就喊停，實際的偽陽性率遠高於名目 $\alpha$。解法是序貫檢定或 always-valid 信賴序列。

第三，多重比較。同時測 10 個指標，至少一個假陽性的機率約 $1-(1-0.05)^{10} \approx 0.40$，需用 Bonferroni 或 FDR 校正。

第四，SUTVA 與干擾。社群、共乘、廣告競價等場景中，處理 A 使用者會影響 B 使用者，潛在結果不再彼此獨立，簡單 A/B 會有偏誤，需要叢集隨機化或切換式設計。

深入探討（研究所視角）

把差異估計量放進更一般的框架，會看到它其實是一個 M-估計量（M-estimator）。將 $\hat{\tau}$ 寫成迴歸 $Y_i = \beta_0 + \tau Z_i + \varepsilon_i$ 的 OLS 係數，由 M-估計理論可得 $\sqrt{n}(\hat{\tau} - \tau) \xrightarrow{d} \mathcal{N}(0, V)$，其中 $V$ 由 $A^{-1} B A^{-1}$ 形式的三明治變異數給出。隨機化保證一致性與漸近常態，這也是為何即使誤差異方差（heteroskedasticity，二元結果必然如此），仍應採用 Huber–White 穩健標準誤而非古典 OLS 標準誤。進一步地，加入共變量做迴歸調整可降低殘差變異數而提升精度；Lin（2013）證明只要納入處理與共變量的交互項，調整後估計量在隨機化下漸近上不會比簡單差異更差，且通常更有效率——這就是業界 CUPED（用實驗前指標當共變量）的理論根基，其變異數縮減比例約為 $1-\rho^2$，$\rho$ 為實驗前後指標的相關係數。

最大概似（MLE）視角下，二元結果的對數似然為 $\ell(p) = \sum_i [y_i \log p + (1-y_i)\log(1-p)]$，解 $\partial \ell / \partial p = 0$ 得 $\hat{p} = \bar{Y}$，恰為樣本比例。Fisher 資訊 $I(p) = n/[p(1-p)]$，其倒數 $p(1-p)/n$ 正是前面變異數的來源——可見 MLE 漸近達到 Cramér–Rao 下界，差異估計量在這個意義上是有效率的。動差法（MoM）在此與 MLE 重合，但在更複雜的結果分布（如收益的重尾、零膨脹）下兩者分歧，此時需要穩健或半參數估計。

貝氏對應則把問題轉為後驗推論。對轉換率採 Beta 共軛先驗 $p \sim \text{Beta}(\alpha_0, \beta_0)$，觀測到 $s$ 次成功、$f$ 次失敗後，後驗為 $\text{Beta}(\alpha_0 + s, \beta_0 + f)$。我們可直接計算決策相關的量 $\Pr(p_B > p_A \mid \text{資料})$，這比 p 值更貼近商業決策語言，也天然支援序貫更新而不膨脹錯誤率——這是 Thompson sampling 等多臂吃角子老虎（multi-armed bandit）演算法的基礎，能在實驗進行中動態把更多流量導向較優版本，以「探索—利用」權衡取代固定分組。

最後，A/B 測試是因果推論與機器學習交會的前沿。當實驗有不完全遵從（intention-to-treat 與 local ATE 的差異）時，可用工具變量；當關心的是異質處理效應 $\tau(x) = \mathbb{E}[Y(1)-Y(0)\mid X=x]$ 時，causal forest、雙重穩健（doubly robust）與 double/debiased machine learning（Chernozhukov 等）能在用機器學習估計干擾函數的同時，保留 $\hat{\tau}$ 的 $\sqrt{n}$ 漸近常態與有效推論。這些方法的共同精神始終如一：隨機化提供無偏的識別基礎，統計理論則確保我們對不確定性的量化誠實可信。

← 上一篇

隨機對照試驗與準實驗設計：從潛在結果到因果識別

--

1

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings