檢定力、效果量與樣本數規劃：從非中心參數到研究設計

為什麼樣本數與效果量平方成反比？嚴謹推導檢定力公式，並從漸近理論、貝氏與因果推論視角重新理解研究規劃

進階 · 約 12 分鐘 ·#檢定力#效果量#樣本數規劃#非中心參數#Fisher訊息量#假設檢定

從「拒絕錯誤」到「主動規劃」：檢定力的真正含義

許多人把假設檢定停在「$p<0.05$ 就有顯著」這一步，卻忽略了一個更深的問題：當虛無假設真的為假時，我們的檢定有多大機會「抓得到」它？這個機率就是檢定力（statistical power），記為 $1-\beta$。換句話說，型一錯誤率 $\alpha$ 控制的是「不該拒絕卻拒絕」的風險，而 $\beta$ 控制的是「該拒絕卻沒拒絕」的風險。一個只盯著 $\alpha$、不問 $\beta$ 的研究設計，等於只繫了一條安全帶就上路。

考慮最基本的單樣本 $z$ 檢定，假設母體變異數 $\sigma^2$ 已知，欲檢定 $H_0:\mu=\mu_0$ 對 $H_1:\mu=\mu_1>\mu_0$。檢定統計量為

$$Z=\frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}}.$$

在 $H_0$ 下 $Z\sim N(0,1)$，右尾單側檢定的拒絕域為 $Z>z_{1-\alpha}$。但當真實平均為 $\mu_1$ 時，$\bar{X}\sim N\!\left(\mu_1,\sigma^2/n\right)$，因此 $Z$ 不再以 0 為中心，而是平移到一個非中心參數（noncentrality parameter）

$$\delta=\frac{\mu_1-\mu_0}{\sigma/\sqrt{n}}=\sqrt{n}\,\frac{\mu_1-\mu_0}{\sigma}=\sqrt{n}\,d,$$

其中 $d=(\mu_1-\mu_0)/\sigma$ 正是 Cohen 所定義的標準化效果量（effect size）。檢定力即為在此平移分配下落入拒絕域的機率。

檢定力、效果量與樣本數規劃概念示意圖

檢定力公式的推導

延續上式，檢定力為

$$1-\beta=\Pr\!\left(Z>z_{1-\alpha}\mid \mu=\mu_1\right).$$

把 $Z$ 標準化回標準常態。注意 $Z=\dfrac{\bar X-\mu_0}{\sigma/\sqrt n}$，而 $\dfrac{\bar X-\mu_1}{\sigma/\sqrt n}\sim N(0,1)$，所以

$$1-\beta=\Pr\!\left(\frac{\bar X-\mu_1}{\sigma/\sqrt n}>z_{1-\alpha}-\delta\right)=1-\Phi\!\left(z_{1-\alpha}-\delta\right)=\Phi\!\left(\delta-z_{1-\alpha}\right),$$

其中 $\Phi$ 為標準常態 CDF。這條式子揭示了三件事：第一，檢定力是 $\delta=\sqrt n\,d$ 的單調遞增函數；第二，提高 $\alpha$（放寬 $z_{1-\alpha}$）會增加檢定力，這正是 $\alpha$ 與 $\beta$ 的權衡；第三，效果量 $d$ 與樣本數 $n$ 透過 $\sqrt n$ 「相乘」進入檢定力，意味著小效果量可由大樣本補償，但代價是 $n$ 隨 $1/d^2$ 膨脹。

反解樣本數：規劃的核心

研究設計時，我們通常固定 $\alpha$、目標檢定力 $1-\beta$ 與最小有意義效果量 $d$，反解所需 $n$。令 $\Phi(\delta-z_{1-\alpha})=1-\beta$，即 $\delta-z_{1-\alpha}=z_{1-\beta}$，於是

$$\sqrt n\,d=z_{1-\alpha}+z_{1-\beta}\quad\Longrightarrow\quad n=\frac{(z_{1-\alpha}+z_{1-\beta})^2}{d^2}.$$

對雙尾檢定只需把 $z_{1-\alpha}$ 換成 $z_{1-\alpha/2}$。這條簡潔的公式是樣本數規劃的骨幹：所需樣本與效果量平方成反比。把效果量減半，樣本數要變成四倍——這也是為什麼「偵測微小差異」往往昂貴到不切實際。

對兩獨立樣本均值比較（每組各 $n$），標準誤為 $\sigma\sqrt{2/n}$，相應公式為

$$n=\frac{2(z_{1-\alpha/2}+z_{1-\beta})^2}{d^2}\quad(\text{每組}).$$

定量小範例

某教學介入研究欲偵測學習成效的標準化效果量 $d=0.4$（中小效果），採雙尾檢定 $\alpha=0.05$、目標檢定力 $1-\beta=0.80$，比較實驗組與對照組均值。查表得 $z_{1-\alpha/2}=z_{0.975}=1.96$、$z_{1-\beta}=z_{0.80}=0.842$。

第一步，計算兩臨界值之和：

$$z_{0.975}+z_{0.80}=1.96+0.842=2.802.$$

第二步，代入兩獨立樣本公式：

$$n=\frac{2\,(2.802)^2}{0.4^2}=\frac{2\times 7.851}{0.16}=\frac{15.702}{0.16}\approx 98.1.$$

第三步，樣本數須無條件進位，故每組約需 99 人，總計約 198 人。

值得反向驗證：若研究者只能招募每組 50 人，實際檢定力是多少？此時 $\delta=d\sqrt{n/2}=0.4\sqrt{25}=2.0$，檢定力為

$$1-\beta=\Phi(\delta-z_{1-\alpha/2})=\Phi(2.0-1.96)=\Phi(0.04)\approx 0.516.$$

也就是說，只有約五成機會偵測到真實存在的效果——這種研究即使「沒測到顯著」也幾乎無法下結論，因為陰性結果可能只是檢定力不足的產物。

統計素養的提醒

三個常見誤區值得警惕。其一，事後檢定力（post hoc power）用觀測到的效果量回推檢定力，其實是 $p$ 值的單調重述，不提供新資訊，更不能用來「解釋」不顯著的結果。其二，效果量不是因果量：$d$ 大只說明組間差異標準化後很大，若研究設計非隨機分派，差異仍可能來自混淆變項，相關不等於因果。其三，$p$ 值不是「$H_0$ 為真的機率」，信賴區間也不是「參數有 95% 機率落在此區間」的貝氏陳述；它指的是區間構造程序在重複抽樣下的覆蓋率。把檢定力規劃做在資料蒐集之前，才是對抗這些誤解最務實的防線。

深入探討（研究所視角）

前述推導建立在「$\sigma$ 已知、統計量恰為常態」的理想上。在更一般的最大概似（MLE）框架下，檢定力分析依賴估計量的漸近性質。對正則模型，MLE $\hat\theta_n$ 滿足 $\sqrt n(\hat\theta_n-\theta_0)\xrightarrow{d}N\!\left(0,\,I(\theta_0)^{-1}\right)$，其中 $I(\theta)$ 為 Fisher 訊息量。由此可導出 Wald、score（Rao）與概似比（LRT）三類檢定。關鍵結果是：在固定虛無與局部對立假設 $\theta_n=\theta_0+h/\sqrt n$ 的 Pitman 漂移下，這三種檢定統計量皆漸近服從非中心卡方分配 $\chi^2_k(\lambda)$，非中心參數 $\lambda=h^\top I(\theta_0)\,h$。這把前面 $z$ 檢定的非中心參數 $\delta^2$ 推廣到多參數情形——效果量的本質，就是以 Fisher 訊息為度量的「對立假設離虛無有多遠」。動差法（method of moments）雖計算簡便，但漸近變異數通常大於 MLE，由 Cramér–Rao 下界 $\mathrm{Var}(\hat\theta)\ge I(\theta)^{-1}$ 可知 MLE 的漸近效率最優，這也意味同樣檢定力下 MLE 為基礎的檢定通常需要較小樣本。

貝氏視角則重新框定整個問題。頻率學派的檢定力是「在固定參數下、對抽樣分配取期望」的量；貝氏設計則對先驗 $\pi(\theta)$ 取平均，定義保證檢定力（assurance） $\int (1-\beta(\theta))\,\pi(\theta)\,d\theta$，承認效果量本身的不確定性。貝氏因子（Bayes factor）取代二元的拒絕／不拒絕，能量化資料對 $H_1$ 相對 $H_0$ 的支持強度，且不受最佳停止規則（optional stopping）影響——這正是序貫設計與適應性試驗偏好貝氏方法的理由之一。

與現代方法的連結同樣深刻。在機器學習中，檢定力對應於樣本複雜度（sample complexity）：要把估計誤差壓到 $\varepsilon$ 以內所需的資料量，與此處 $n\propto 1/d^2$ 的尺度同源；PAC 學習界與集中不等式（Hoeffding、Bernstein）扮演與常態近似平行的角色。在因果推論中，平均處理效應 $\tau=E[Y(1)-Y(0)]$ 的可估計性受重疊性（overlap）與傾向分數分配影響，半參數效率界（如 AIPW 估計量達到的有效影響函數變異數）決定了在無混淆假設下能達到的最小漸近變異，從而界定了因果效果的「可偵測性」。值得強調的是：再大的樣本與再高的檢定力，都只能銳化估計、不能修補有偏的識別假設。檢定力規劃保證我們「看得清楚」，但「看的是不是因果」仍取決於設計本身。

← 上一篇

假設檢定：如何用資料下判斷

多重比較與偽發現率（FDR）：從 FWER 到 Benjamini–Hochberg

--

1

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings