分層、群集與系統抽樣的設計:從變異數分解到估計精度
用設計效應、Neyman 配置與 Horvitz–Thompson 框架,理解「怎麼抽」如何決定標準誤
為什麼「怎麼抽」會改變你的標準誤
直覺上,抽樣只是「隨機挑一些人來看」,但真正決定估計精度的,往往不是樣本量本身,而是抽樣設計如何切割母體的變異。同樣抽 1000 人,分層、群集與系統抽樣會給出截然不同的標準誤,原因藏在變異數的分解結構裡。本文不再停留於「分層更準、群集更省」的口號,而是把三種設計的估計量與變異數公式攤開推導,說明何時受益、何時受害。
我們固定一個目標:估計母體均值 $\bar{Y} = \frac{1}{N}\sum_{i=1}^{N} Y_i$,並以變異數作為比較設計優劣的尺規。基準是簡單隨機抽樣(SRS)不放回,其樣本均值 $\bar{y}$ 的變異數為
$$ \operatorname{Var}(\bar{y}_{\text{SRS}}) = \left(1 - \frac{n}{N}\right)\frac{S^2}{n}, \qquad S^2 = \frac{1}{N-1}\sum_{i=1}^{N}(Y_i - \bar{Y})^2, $$
其中 $\left(1-\tfrac{n}{N}\right)$ 是有限母體修正因子(FPC)。

分層抽樣:把變異關進層內
分層的核心思想是先把母體切成 $H$ 個互斥的層(strata),層 $h$ 有 $N_h$ 個單位、層權 $W_h = N_h/N$,在每層內各自做 SRS 抽 $n_h$ 個。分層估計量為各層均值的加權平均:
$$ \bar{y}_{\text{st}} = \sum_{h=1}^{H} W_h\, \bar{y}_h . $$
由於各層獨立抽樣,其變異數為各層變異數的加權平方和:
$$ \operatorname{Var}(\bar{y}_{\text{st}}) = \sum_{h=1}^{H} W_h^2 \left(1 - \frac{n_h}{N_h}\right)\frac{S_h^2}{n_h}, $$
其中 $S_h^2$ 是層內變異。關鍵洞見來自變異數分解 $S^2 \approx \underbrace{\sum_h W_h S_h^2}_{\text{層內}} + \underbrace{\sum_h W_h (\bar{Y}_h - \bar{Y})^2}_{\text{層間}}$。分層估計量的變異數只含層內項,層間差異被設計直接消去。因此分層的增益完全取決於你能否把「層間異質、層內同質」做到極致——這正是分層為何幾乎不會比 SRS 差的數學理由。
如何分配 $n_h$?在固定總樣本 $n = \sum_h n_h$ 下,最小化 $\operatorname{Var}(\bar{y}_{\text{st}})$(忽略 FPC)是一個帶約束的最適化問題,用 Lagrange 乘子可解出 Neyman 配置:
$$ n_h \propto N_h S_h . $$
直覺是:層越大、層內越亂,就該分到越多樣本。若再考慮各層調查成本 $c_h$ 不同,最適解推廣為 $n_h \propto N_h S_h / \sqrt{c_h}$(最適配置)。當所有 $S_h$ 相等時,Neyman 配置退化為按層大小比例的比例配置 $n_h = n W_h$,此時 $\bar{y}_{\text{st}}$ 的變異數恰等於 SRS 變異數減去層間項,保證不劣於 SRS。
群集抽樣:抽的是「群」而非「個」
當無法取得完整名冊、或實地成本高昂時,我們改抽群集(如班級、村里)。單階段群集抽樣是隨機抽 $m$ 個群、把抽中群內所有單位全測。問題是:同一群內的單位往往彼此相似,這種相似性由群內相關係數(intracluster correlation)$\rho$ 量化。
對等群(每群 $\bar{B}$ 個單位)的均值估計,其變異數相對於同樣總樣本 $n = m\bar{B}$ 的 SRS 會放大一個倍數,即設計效應(design effect):
$$ \text{deff} = \frac{\operatorname{Var}_{\text{cluster}}}{\operatorname{Var}_{\text{SRS}}} \approx 1 + (\bar{B} - 1)\rho . $$
這是抽樣理論中最重要的公式之一。它說明:只要群內有正相關($\rho > 0$),群集抽樣就犧牲精度換成本。當 $\rho = 0.1$、每群 $\bar{B}=20$ 時,$\text{deff} \approx 1 + 19 \times 0.1 = 2.9$,意即你的有效樣本量只剩名義樣本的約 $1/2.9$。實務上常用有效樣本量 $n_{\text{eff}} = n/\text{deff}$ 來提醒讀者:1000 人的群集樣本,資訊量可能只等同 345 人的 SRS。設計群集抽樣的藝術,就是讓群「內部多樣、彼此相似」——與分層的目標恰好相反。
系統抽樣:等距抽樣的雙面刃
系統抽樣從前 $k = N/n$ 個單位中隨機選一個起點 $r$,之後每隔 $k$ 個抽一次。它操作簡單、空間覆蓋均勻,但本質上是「只抽一個群」的群集抽樣——母體被劃分成 $k$ 個可能的系統樣本,我們只隨機選中其中一條。
系統樣本均值的變異數可寫成
$$ \operatorname{Var}(\bar{y}_{\text{sys}}) = \frac{N-1}{N} S^2 \big[ 1 + (n-1)\rho_w \big], $$
其中 $\rho_w$ 是同一系統樣本內單位的相關。結論呼應群集的 deff:當清單隨機排序時 $\rho_w \approx 0$,系統抽樣近似 SRS;當清單依目標變數單調排序時 $\rho_w < 0$,系統抽樣甚至優於 SRS(因為每條系統樣本都跨越了整個值域,像隱性分層)。但若清單存在週期性且週期恰為 $k$ 的倍數,$\rho_w$ 可能大幅為正,估計災難性偏差——這是系統抽樣最著名的陷阱。
定量小範例:兩層的 Neyman 配置
某大學欲估學生平均每週讀書時數,將學生分為兩層:
| 層 | $N_h$ | $W_h$ | $S_h$(小時) |
|---|---|---|---|
| 文組 | 6000 | 0.6 | 3 |
| 理工 | 4000 | 0.4 | 6 |
固定總樣本 $n = 200$,用 Neyman 配置。先算 $N_h S_h$:文組 $6000 \times 3 = 18000$,理工 $4000 \times 6 = 24000$,合計 $42000$。故
$$ n_{\text{文}} = 200 \times \frac{18000}{42000} \approx 86,\qquad n_{\text{理}} = 200 \times \frac{24000}{42000} \approx 114 . $$
理工雖人數較少,卻因變異大而分到更多樣本。忽略 FPC,分層變異數為
$$ \operatorname{Var}(\bar{y}_{\text{st}}) = 0.6^2 \frac{9}{86} + 0.4^2 \frac{36}{114} \approx 0.0377 + 0.0505 = 0.0882 . $$
對比比例配置($n_{\text{文}}=120, n_{\text{理}}=80$):$0.36 \times \tfrac{9}{120} + 0.16 \times \tfrac{36}{80} = 0.027 + 0.072 = 0.099$。Neyman 配置把變異數從 0.099 降到 0.088,標準誤約改善 6%,且完全沒有增加樣本量——這就是「設計即精度」的具體展現。
統計素養提醒
請注意:分層的精度增益不代表層別之間存在因果差異;理工讀書時數的變異大,只是描述性事實,不能據此推論「念理工會讓人讀書時數兩極化」。同樣地,回報估計時務必附上正確的標準誤——若你對群集樣本誤用 SRS 公式,信賴區間會嚴重過窄,95% 信賴區間的覆蓋率將遠低於 95%。信賴區間的意義是「重複抽樣下涵蓋真值的長期比例」,而非「真值有 95% 機率落在此區間」;deff 沒算對,這個保證就破功了。
深入探討(研究所視角)
把三種設計放進更廣的推論框架,能看見它們其實是同一套理論的不同投影。在設計基礎推論(design-based inference)中,$Y_i$ 視為固定常數,隨機性僅來自抽樣指標 $I_i$。Horvitz–Thompson 估計量 $\hat{Y}_{\text{HT}} = \sum_{i \in s} Y_i / \pi_i$($\pi_i$ 為單位 $i$ 的納入機率)是所有上述設計的統一語言:分層、群集、系統抽樣不過是賦予不同的 $\pi_i$ 與聯合納入機率 $\pi_{ij}$。其變異數的 Horvitz–Thompson 形式 $\operatorname{Var}(\hat{Y}_{\text{HT}}) = \sum_i \sum_j (\pi_{ij} - \pi_i \pi_j) \frac{Y_i}{\pi_i}\frac{Y_j}{\pi_j}$ 在 $\pi_{ij}=0$ 時可能變負,這催生了 Sen–Yates–Grundy 等替代估計式,是當代調查統計的核心議題。
模型基礎推論(model-based)則反過來把 $Y_i$ 視為隨機,假設一個超母體模型。在此視角下,分層對應於把層別作為固定效應、群集對應於隨機效應,群集均值 $\mu_h$ 服從 $\mu_h \sim N(\mu, \sigma_b^2)$、群內 $Y_{hi} \sim N(\mu_h, \sigma_w^2)$,於是 $\rho = \sigma_b^2 / (\sigma_b^2 + \sigma_w^2)$ 正是先前 deff 中的群內相關。這座橋直接把抽樣設計接上階層線性模型與混合效應模型:群集資料的標準誤低估,本質上就是忽略隨機截距的後果,與計量經濟學中的 cluster-robust 標準誤同源。參數估計上,動差法給出 $\hat{\sigma}_b^2$、$\hat{\sigma}_w^2$ 的 ANOVA 型估計,而最大概似(與其偏誤修正版 REML)在不等群大小、缺失資料下更有效率,其估計量具備 $\sqrt{n}$-相合與漸近常態性,標準誤可由 Fisher information 的逆矩陣導出。
貝氏對應進一步把層權與群效應視為先驗的一部分。著名的 Gelman 等人的研究指出,加權與多階層模型可以統一在MRP(multilevel regression and poststratification)框架下:用多階層模型估計每個事後分層格的反應,再依母體格大小加權彙總。這在小樣本、稀疏層別時遠比直接 HT 估計穩健,因為隨機效應提供了向總體均值的收縮(shrinkage),以偏誤換變異——與 James–Stein 估計同一血脈。
最後,抽樣設計與機器學習/因果推論的交會日益緊密。傾向分數(propensity score)本質上是觀察性研究裡「重建」的納入機率 $\pi_i$,逆機率加權(IPW)正是 Horvitz–Thompson 的因果版本;而雙穩健估計(如 AIPW、TMLE)結合結果模型與設計權重,只要兩者之一正確即相合,呼應了設計基礎與模型基礎的互補。需特別警惕的是:無論模型多複雜,加權能修正的只有「可觀測」的選擇機制;對未測量混淆,再精緻的抽樣設計也無法把相關升格為因果。理解這條界線,正是高階統計素養的分水嶺。