檢定力、效果量與樣本數規劃:從非中心參數到研究設計
為什麼樣本數與效果量平方成反比?嚴謹推導檢定力公式,並從漸近理論、貝氏與因果推論視角重新理解研究規劃
從「拒絕錯誤」到「主動規劃」:檢定力的真正含義
許多人把假設檢定停在「$p<0.05$ 就有顯著」這一步,卻忽略了一個更深的問題:當虛無假設真的為假時,我們的檢定有多大機會「抓得到」它?這個機率就是檢定力(statistical power),記為 $1-\beta$。換句話說,型一錯誤率 $\alpha$ 控制的是「不該拒絕卻拒絕」的風險,而 $\beta$ 控制的是「該拒絕卻沒拒絕」的風險。一個只盯著 $\alpha$、不問 $\beta$ 的研究設計,等於只繫了一條安全帶就上路。
考慮最基本的單樣本 $z$ 檢定,假設母體變異數 $\sigma^2$ 已知,欲檢定 $H_0:\mu=\mu_0$ 對 $H_1:\mu=\mu_1>\mu_0$。檢定統計量為
$$Z=\frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}}.$$
在 $H_0$ 下 $Z\sim N(0,1)$,右尾單側檢定的拒絕域為 $Z>z_{1-\alpha}$。但當真實平均為 $\mu_1$ 時,$\bar{X}\sim N\!\left(\mu_1,\sigma^2/n\right)$,因此 $Z$ 不再以 0 為中心,而是平移到一個非中心參數(noncentrality parameter)
$$\delta=\frac{\mu_1-\mu_0}{\sigma/\sqrt{n}}=\sqrt{n}\,\frac{\mu_1-\mu_0}{\sigma}=\sqrt{n}\,d,$$
其中 $d=(\mu_1-\mu_0)/\sigma$ 正是 Cohen 所定義的標準化效果量(effect size)。檢定力即為在此平移分配下落入拒絕域的機率。

檢定力公式的推導
延續上式,檢定力為
$$1-\beta=\Pr\!\left(Z>z_{1-\alpha}\mid \mu=\mu_1\right).$$
把 $Z$ 標準化回標準常態。注意 $Z=\dfrac{\bar X-\mu_0}{\sigma/\sqrt n}$,而 $\dfrac{\bar X-\mu_1}{\sigma/\sqrt n}\sim N(0,1)$,所以
$$1-\beta=\Pr\!\left(\frac{\bar X-\mu_1}{\sigma/\sqrt n}>z_{1-\alpha}-\delta\right)=1-\Phi\!\left(z_{1-\alpha}-\delta\right)=\Phi\!\left(\delta-z_{1-\alpha}\right),$$
其中 $\Phi$ 為標準常態 CDF。這條式子揭示了三件事:第一,檢定力是 $\delta=\sqrt n\,d$ 的單調遞增函數;第二,提高 $\alpha$(放寬 $z_{1-\alpha}$)會增加檢定力,這正是 $\alpha$ 與 $\beta$ 的權衡;第三,效果量 $d$ 與樣本數 $n$ 透過 $\sqrt n$ 「相乘」進入檢定力,意味著小效果量可由大樣本補償,但代價是 $n$ 隨 $1/d^2$ 膨脹。
反解樣本數:規劃的核心
研究設計時,我們通常固定 $\alpha$、目標檢定力 $1-\beta$ 與最小有意義效果量 $d$,反解所需 $n$。令 $\Phi(\delta-z_{1-\alpha})=1-\beta$,即 $\delta-z_{1-\alpha}=z_{1-\beta}$,於是
$$\sqrt n\,d=z_{1-\alpha}+z_{1-\beta}\quad\Longrightarrow\quad n=\frac{(z_{1-\alpha}+z_{1-\beta})^2}{d^2}.$$
對雙尾檢定只需把 $z_{1-\alpha}$ 換成 $z_{1-\alpha/2}$。這條簡潔的公式是樣本數規劃的骨幹:所需樣本與效果量平方成反比。把效果量減半,樣本數要變成四倍——這也是為什麼「偵測微小差異」往往昂貴到不切實際。
對兩獨立樣本均值比較(每組各 $n$),標準誤為 $\sigma\sqrt{2/n}$,相應公式為
$$n=\frac{2(z_{1-\alpha/2}+z_{1-\beta})^2}{d^2}\quad(\text{每組}).$$
定量小範例
某教學介入研究欲偵測學習成效的標準化效果量 $d=0.4$(中小效果),採雙尾檢定 $\alpha=0.05$、目標檢定力 $1-\beta=0.80$,比較實驗組與對照組均值。查表得 $z_{1-\alpha/2}=z_{0.975}=1.96$、$z_{1-\beta}=z_{0.80}=0.842$。
第一步,計算兩臨界值之和:
$$z_{0.975}+z_{0.80}=1.96+0.842=2.802.$$
第二步,代入兩獨立樣本公式:
$$n=\frac{2\,(2.802)^2}{0.4^2}=\frac{2\times 7.851}{0.16}=\frac{15.702}{0.16}\approx 98.1.$$
第三步,樣本數須無條件進位,故每組約需 99 人,總計約 198 人。
值得反向驗證:若研究者只能招募每組 50 人,實際檢定力是多少?此時 $\delta=d\sqrt{n/2}=0.4\sqrt{25}=2.0$,檢定力為
$$1-\beta=\Phi(\delta-z_{1-\alpha/2})=\Phi(2.0-1.96)=\Phi(0.04)\approx 0.516.$$
也就是說,只有約五成機會偵測到真實存在的效果——這種研究即使「沒測到顯著」也幾乎無法下結論,因為陰性結果可能只是檢定力不足的產物。
統計素養的提醒
三個常見誤區值得警惕。其一,事後檢定力(post hoc power)用觀測到的效果量回推檢定力,其實是 $p$ 值的單調重述,不提供新資訊,更不能用來「解釋」不顯著的結果。其二,效果量不是因果量:$d$ 大只說明組間差異標準化後很大,若研究設計非隨機分派,差異仍可能來自混淆變項,相關不等於因果。其三,$p$ 值不是「$H_0$ 為真的機率」,信賴區間也不是「參數有 95% 機率落在此區間」的貝氏陳述;它指的是區間構造程序在重複抽樣下的覆蓋率。把檢定力規劃做在資料蒐集之前,才是對抗這些誤解最務實的防線。
深入探討(研究所視角)
前述推導建立在「$\sigma$ 已知、統計量恰為常態」的理想上。在更一般的最大概似(MLE)框架下,檢定力分析依賴估計量的漸近性質。對正則模型,MLE $\hat\theta_n$ 滿足 $\sqrt n(\hat\theta_n-\theta_0)\xrightarrow{d}N\!\left(0,\,I(\theta_0)^{-1}\right)$,其中 $I(\theta)$ 為 Fisher 訊息量。由此可導出 Wald、score(Rao)與概似比(LRT)三類檢定。關鍵結果是:在固定虛無與局部對立假設 $\theta_n=\theta_0+h/\sqrt n$ 的 Pitman 漂移下,這三種檢定統計量皆漸近服從非中心卡方分配 $\chi^2_k(\lambda)$,非中心參數 $\lambda=h^\top I(\theta_0)\,h$。這把前面 $z$ 檢定的非中心參數 $\delta^2$ 推廣到多參數情形——效果量的本質,就是以 Fisher 訊息為度量的「對立假設離虛無有多遠」。動差法(method of moments)雖計算簡便,但漸近變異數通常大於 MLE,由 Cramér–Rao 下界 $\mathrm{Var}(\hat\theta)\ge I(\theta)^{-1}$ 可知 MLE 的漸近效率最優,這也意味同樣檢定力下 MLE 為基礎的檢定通常需要較小樣本。
貝氏視角則重新框定整個問題。頻率學派的檢定力是「在固定參數下、對抽樣分配取期望」的量;貝氏設計則對先驗 $\pi(\theta)$ 取平均,定義保證檢定力(assurance) $\int (1-\beta(\theta))\,\pi(\theta)\,d\theta$,承認效果量本身的不確定性。貝氏因子(Bayes factor)取代二元的拒絕/不拒絕,能量化資料對 $H_1$ 相對 $H_0$ 的支持強度,且不受最佳停止規則(optional stopping)影響——這正是序貫設計與適應性試驗偏好貝氏方法的理由之一。
與現代方法的連結同樣深刻。在機器學習中,檢定力對應於樣本複雜度(sample complexity):要把估計誤差壓到 $\varepsilon$ 以內所需的資料量,與此處 $n\propto 1/d^2$ 的尺度同源;PAC 學習界與集中不等式(Hoeffding、Bernstein)扮演與常態近似平行的角色。在因果推論中,平均處理效應 $\tau=E[Y(1)-Y(0)]$ 的可估計性受重疊性(overlap)與傾向分數分配影響,半參數效率界(如 AIPW 估計量達到的有效影響函數變異數)決定了在無混淆假設下能達到的最小漸近變異,從而界定了因果效果的「可偵測性」。值得強調的是:再大的樣本與再高的檢定力,都只能銳化估計、不能修補有偏的識別假設。檢定力規劃保證我們「看得清楚」,但「看的是不是因果」仍取決於設計本身。