分層、群集與系統抽樣的設計：從變異數分解到估計精度

用設計效應、Neyman 配置與 Horvitz–Thompson 框架，理解「怎麼抽」如何決定標準誤

進階 · 約 14 分鐘 ·#分層抽樣#群集抽樣#系統抽樣#設計效應#Neyman配置#抽樣分布

為什麼「怎麼抽」會改變你的標準誤

直覺上，抽樣只是「隨機挑一些人來看」，但真正決定估計精度的，往往不是樣本量本身，而是抽樣設計如何切割母體的變異。同樣抽 1000 人，分層、群集與系統抽樣會給出截然不同的標準誤，原因藏在變異數的分解結構裡。本文不再停留於「分層更準、群集更省」的口號，而是把三種設計的估計量與變異數公式攤開推導，說明何時受益、何時受害。

我們固定一個目標：估計母體均值 $\bar{Y} = \frac{1}{N}\sum_{i=1}^{N} Y_i$，並以變異數作為比較設計優劣的尺規。基準是簡單隨機抽樣（SRS）不放回，其樣本均值 $\bar{y}$ 的變異數為

$$ \operatorname{Var}(\bar{y}_{\text{SRS}}) = \left(1 - \frac{n}{N}\right)\frac{S^2}{n}, \qquad S^2 = \frac{1}{N-1}\sum_{i=1}^{N}(Y_i - \bar{Y})^2, $$

其中 $\left(1-\tfrac{n}{N}\right)$ 是有限母體修正因子（FPC）。

分層、群集與系統抽樣的設計概念示意圖

分層抽樣：把變異關進層內

分層的核心思想是先把母體切成 $H$ 個互斥的層（strata），層 $h$ 有 $N_h$ 個單位、層權 $W_h = N_h/N$，在每層內各自做 SRS 抽 $n_h$ 個。分層估計量為各層均值的加權平均：

$$ \bar{y}_{\text{st}} = \sum_{h=1}^{H} W_h\, \bar{y}_h . $$

由於各層獨立抽樣，其變異數為各層變異數的加權平方和：

$$ \operatorname{Var}(\bar{y}_{\text{st}}) = \sum_{h=1}^{H} W_h^2 \left(1 - \frac{n_h}{N_h}\right)\frac{S_h^2}{n_h}, $$

其中 $S_h^2$ 是層內變異。關鍵洞見來自變異數分解 $S^2 \approx \underbrace{\sum_h W_h S_h^2}_{\text{層內}} + \underbrace{\sum_h W_h (\bar{Y}_h - \bar{Y})^2}_{\text{層間}}$。分層估計量的變異數只含層內項，層間差異被設計直接消去。因此分層的增益完全取決於你能否把「層間異質、層內同質」做到極致——這正是分層為何幾乎不會比 SRS 差的數學理由。

如何分配 $n_h$？在固定總樣本 $n = \sum_h n_h$ 下，最小化 $\operatorname{Var}(\bar{y}_{\text{st}})$（忽略 FPC）是一個帶約束的最適化問題，用 Lagrange 乘子可解出 Neyman 配置：

$$ n_h \propto N_h S_h . $$

直覺是：層越大、層內越亂，就該分到越多樣本。若再考慮各層調查成本 $c_h$ 不同，最適解推廣為 $n_h \propto N_h S_h / \sqrt{c_h}$（最適配置）。當所有 $S_h$ 相等時，Neyman 配置退化為按層大小比例的比例配置 $n_h = n W_h$，此時 $\bar{y}_{\text{st}}$ 的變異數恰等於 SRS 變異數減去層間項，保證不劣於 SRS。

群集抽樣：抽的是「群」而非「個」

當無法取得完整名冊、或實地成本高昂時，我們改抽群集（如班級、村里）。單階段群集抽樣是隨機抽 $m$ 個群、把抽中群內所有單位全測。問題是：同一群內的單位往往彼此相似，這種相似性由群內相關係數（intracluster correlation）$\rho$ 量化。

對等群（每群 $\bar{B}$ 個單位）的均值估計，其變異數相對於同樣總樣本 $n = m\bar{B}$ 的 SRS 會放大一個倍數，即設計效應（design effect）：

$$ \text{deff} = \frac{\operatorname{Var}_{\text{cluster}}}{\operatorname{Var}_{\text{SRS}}} \approx 1 + (\bar{B} - 1)\rho . $$

這是抽樣理論中最重要的公式之一。它說明：只要群內有正相關（$\rho > 0$），群集抽樣就犧牲精度換成本。當 $\rho = 0.1$、每群 $\bar{B}=20$ 時，$\text{deff} \approx 1 + 19 \times 0.1 = 2.9$，意即你的有效樣本量只剩名義樣本的約 $1/2.9$。實務上常用有效樣本量 $n_{\text{eff}} = n/\text{deff}$ 來提醒讀者：1000 人的群集樣本，資訊量可能只等同 345 人的 SRS。設計群集抽樣的藝術，就是讓群「內部多樣、彼此相似」——與分層的目標恰好相反。

系統抽樣：等距抽樣的雙面刃

系統抽樣從前 $k = N/n$ 個單位中隨機選一個起點 $r$，之後每隔 $k$ 個抽一次。它操作簡單、空間覆蓋均勻，但本質上是「只抽一個群」的群集抽樣——母體被劃分成 $k$ 個可能的系統樣本，我們只隨機選中其中一條。

系統樣本均值的變異數可寫成

$$ \operatorname{Var}(\bar{y}_{\text{sys}}) = \frac{N-1}{N} S^2 \big[ 1 + (n-1)\rho_w \big], $$

其中 $\rho_w$ 是同一系統樣本內單位的相關。結論呼應群集的 deff：當清單隨機排序時 $\rho_w \approx 0$，系統抽樣近似 SRS；當清單依目標變數單調排序時 $\rho_w < 0$，系統抽樣甚至優於 SRS（因為每條系統樣本都跨越了整個值域，像隱性分層）。但若清單存在週期性且週期恰為 $k$ 的倍數，$\rho_w$ 可能大幅為正，估計災難性偏差——這是系統抽樣最著名的陷阱。

定量小範例：兩層的 Neyman 配置

某大學欲估學生平均每週讀書時數，將學生分為兩層：

層	$N_h$	$W_h$	$S_h$（小時）
文組	6000	0.6	3
理工	4000	0.4	6

固定總樣本 $n = 200$，用 Neyman 配置。先算 $N_h S_h$：文組 $6000 \times 3 = 18000$，理工 $4000 \times 6 = 24000$，合計 $42000$。故

$$ n_{\text{文}} = 200 \times \frac{18000}{42000} \approx 86,\qquad n_{\text{理}} = 200 \times \frac{24000}{42000} \approx 114 . $$

理工雖人數較少，卻因變異大而分到更多樣本。忽略 FPC，分層變異數為

$$ \operatorname{Var}(\bar{y}_{\text{st}}) = 0.6^2 \frac{9}{86} + 0.4^2 \frac{36}{114} \approx 0.0377 + 0.0505 = 0.0882 . $$

對比比例配置（$n_{\text{文}}=120, n_{\text{理}}=80$）：$0.36 \times \tfrac{9}{120} + 0.16 \times \tfrac{36}{80} = 0.027 + 0.072 = 0.099$。Neyman 配置把變異數從 0.099 降到 0.088，標準誤約改善 6%，且完全沒有增加樣本量——這就是「設計即精度」的具體展現。

統計素養提醒

請注意：分層的精度增益不代表層別之間存在因果差異；理工讀書時數的變異大，只是描述性事實，不能據此推論「念理工會讓人讀書時數兩極化」。同樣地，回報估計時務必附上正確的標準誤——若你對群集樣本誤用 SRS 公式，信賴區間會嚴重過窄，95% 信賴區間的覆蓋率將遠低於 95%。信賴區間的意義是「重複抽樣下涵蓋真值的長期比例」，而非「真值有 95% 機率落在此區間」；deff 沒算對，這個保證就破功了。

深入探討（研究所視角）

把三種設計放進更廣的推論框架，能看見它們其實是同一套理論的不同投影。在設計基礎推論（design-based inference）中，$Y_i$ 視為固定常數，隨機性僅來自抽樣指標 $I_i$。Horvitz–Thompson 估計量 $\hat{Y}_{\text{HT}} = \sum_{i \in s} Y_i / \pi_i$（$\pi_i$ 為單位 $i$ 的納入機率）是所有上述設計的統一語言：分層、群集、系統抽樣不過是賦予不同的 $\pi_i$ 與聯合納入機率 $\pi_{ij}$。其變異數的 Horvitz–Thompson 形式 $\operatorname{Var}(\hat{Y}_{\text{HT}}) = \sum_i \sum_j (\pi_{ij} - \pi_i \pi_j) \frac{Y_i}{\pi_i}\frac{Y_j}{\pi_j}$ 在 $\pi_{ij}=0$ 時可能變負，這催生了 Sen–Yates–Grundy 等替代估計式，是當代調查統計的核心議題。

模型基礎推論（model-based）則反過來把 $Y_i$ 視為隨機，假設一個超母體模型。在此視角下，分層對應於把層別作為固定效應、群集對應於隨機效應，群集均值 $\mu_h$ 服從 $\mu_h \sim N(\mu, \sigma_b^2)$、群內 $Y_{hi} \sim N(\mu_h, \sigma_w^2)$，於是 $\rho = \sigma_b^2 / (\sigma_b^2 + \sigma_w^2)$ 正是先前 deff 中的群內相關。這座橋直接把抽樣設計接上階層線性模型與混合效應模型：群集資料的標準誤低估，本質上就是忽略隨機截距的後果，與計量經濟學中的 cluster-robust 標準誤同源。參數估計上，動差法給出 $\hat{\sigma}_b^2$、$\hat{\sigma}_w^2$ 的 ANOVA 型估計，而最大概似（與其偏誤修正版 REML）在不等群大小、缺失資料下更有效率，其估計量具備 $\sqrt{n}$-相合與漸近常態性，標準誤可由 Fisher information 的逆矩陣導出。

貝氏對應進一步把層權與群效應視為先驗的一部分。著名的 Gelman 等人的研究指出，加權與多階層模型可以統一在MRP（multilevel regression and poststratification）框架下：用多階層模型估計每個事後分層格的反應，再依母體格大小加權彙總。這在小樣本、稀疏層別時遠比直接 HT 估計穩健，因為隨機效應提供了向總體均值的收縮（shrinkage），以偏誤換變異——與 James–Stein 估計同一血脈。

最後，抽樣設計與機器學習／因果推論的交會日益緊密。傾向分數（propensity score）本質上是觀察性研究裡「重建」的納入機率 $\pi_i$，逆機率加權（IPW）正是 Horvitz–Thompson 的因果版本；而雙穩健估計（如 AIPW、TMLE）結合結果模型與設計權重，只要兩者之一正確即相合，呼應了設計基礎與模型基礎的互補。需特別警惕的是：無論模型多複雜，加權能修正的只有「可觀測」的選擇機制；對未測量混淆，再精緻的抽樣設計也無法把相關升格為因果。理解這條界線，正是高階統計素養的分水嶺。

← 上一篇

為什麼問一千人就能猜中全台灣？抽樣與抽樣分布的推論魔法

--

1

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings