等級檢定的數學機制：Mann–Whitney、Wilcoxon 與 Kruskal–Wallis

從排列等機率到漸近常態與卡方極限：推導三大無母數檢定的統計量、矩與詮釋界限

進階 · 約 14 分鐘 ·#無母數統計#等級檢定#Mann-Whitney U#Wilcoxon 符號秩#Kruskal-Wallis#漸近效率

從「比較數值」到「比較名次」：等級檢定的核心直覺

當資料嚴重偏態、含有極端值，或測量尺度本身只是序位（ordinal）時，比較平均數的 $t$ 檢定與 ANOVA 便失去了立足點。等級檢定（rank tests）的核心想法極為簡潔：丟掉原始數值，只保留它們的相對名次。一旦把觀測值轉成等級，分配函數的具體形狀就被「洗掉」了——在虛無假設下，所有觀測值來自同一連續分配，於是任何一種名次排列都等機率出現。這個「排列等機率」的結構，正是 Mann–Whitney、Wilcoxon 與 Kruskal–Wallis 三大檢定共同的數學引擎，也讓它們成為 distribution-free 方法。

本篇假設讀者已熟悉假設檢定、期望值與變異數運算，將直接推導三者的統計量、其精確分配與漸近常態化的來龍去脈。

等級檢定：Mann–Whitney、Wilcoxon、Kruskal–Wallis概念示意圖

Mann–Whitney $U$：成對勝負的計數與其矩

設兩獨立樣本 $X_1,\dots,X_m$ 與 $Y_1,\dots,Y_n$，$N=m+n$。定義

$$U = \sum_{i=1}^{m}\sum_{j=1}^{n} \mathbf{1}\{X_i > Y_j\},$$

即所有跨組配對中 $X$ 勝出的次數。$U$ 與 Wilcoxon 秩和 $W$ 之間有恆等式：若將全體混合後給 $X$ 組的秩和記為 $R_X$，則

$$U = R_X - \frac{m(m+1)}{2}.$$

這條關係說明 Mann–Whitney 與 Wilcoxon rank-sum 本質上是同一檢定的兩種記法。

期望值與變異數的推導。 在 $H_0:F_X=F_Y$（連續、無 ties）下，對任一配對 $\Pr(X_i>Y_j)=\tfrac12$，故

$$\mathbb{E}[U] = mn\cdot \tfrac12 = \frac{mn}{2}.$$

變異數需考慮配對間的相依。令 $I_{ij}=\mathbf{1}\{X_i>Y_j\}$。同一個 $X_i$ 參與的兩個比較、或同一個 $Y_j$ 參與的兩個比較並不獨立。透過計算 $\mathbb{E}[I_{ij}I_{kl}]$ 在不同重疊情形下的值（共享索引時為 $1/3$，完全不共享時為 $1/4$），可得經典結果

$$\operatorname{Var}(U) = \frac{mn(N+1)}{12}.$$

由中央極限定理的排列版本，當 $m,n\to\infty$ 時

$$Z = \frac{U - mn/2}{\sqrt{mn(N+1)/12}} \xrightarrow{d} \mathcal{N}(0,1).$$

結點（ties）校正。 若有 ties，採用 midrank（平均秩），變異數需乘上修正項。設第 $g$ 個結點群大小為 $t_g$，則

$$\operatorname{Var}(U)=\frac{mn}{12}\left(N+1-\frac{\sum_g (t_g^3-t_g)}{N(N-1)}\right).$$

詮釋陷阱。 Mann–Whitney 並非檢定「中位數相等」，而是檢定機率 $\Pr(X>Y)=\tfrac12$（隨機優越性，stochastic dominance）。只有在「位移模型」假設（兩分配僅差一平移、形狀同）下，它才等價於中位數比較。把顯著結果直接讀成「兩組中位數不同」是常見誤用。

Wilcoxon 符號秩：配對設計的對稱性利用

對於配對或單樣本資料，令差值 $D_i = X_i - \theta_0$。Wilcoxon 符號秩檢定先取 $|D_i|$ 排名得 $R_i$，再定義正號秩和

$$W^+ = \sum_{i=1}^{n} R_i\,\mathbf{1}\{D_i>0\}.$$

在 $H_0$：$D_i$ 對稱分布於 $0$ 時，每個 $|D_i|$ 的符號獨立且各以 $1/2$ 為正。將 $W^+=\sum_i R_i S_i$（$S_i\in\{0,1\}$ 為是否為正），由 $\mathbb{E}[S_i]=\tfrac12$、$\operatorname{Var}(S_i)=\tfrac14$ 且各 $S_i$ 獨立：

$$\mathbb{E}[W^+] = \frac{1}{2}\sum_{i=1}^n R_i = \frac{n(n+1)}{4},$$

$$\operatorname{Var}(W^+) = \frac{1}{4}\sum_{i=1}^n R_i^2 = \frac{1}{4}\cdot\frac{n(n+1)(2n+1)}{6} = \frac{n(n+1)(2n+1)}{24}.$$

這裡用到 $\sum_{i=1}^n R_i^2 = \sum_{k=1}^n k^2$，因為秩恰是 $1,\dots,n$ 的排列。同樣可得漸近常態近似。值得強調：符號秩檢定要求對稱性假設，而非僅僅連續性——這是它與符號檢定（sign test，只用符號、僅需中位數定義）的關鍵差異。

Kruskal–Wallis：多組推廣與卡方極限

將 Mann–Whitney 推廣到 $k\ge 3$ 組即得 Kruskal–Wallis 檢定。混合全部 $N$ 個觀測值排名，令第 $j$ 組秩和為 $R_j$、組大小 $n_j$。統計量

$$H = \frac{12}{N(N+1)}\sum_{j=1}^{k}\frac{R_j^2}{n_j} - 3(N+1).$$

其推導思路是：將各組平均秩 $\bar R_j = R_j/n_j$ 與全體平均秩 $(N+1)/2$ 的加權平方偏差標準化。由於秩的總變異固定，$H$ 本質上是「組間秩變異 / 秩的理論變異」的比值。在 $H_0$ 下，當各 $n_j\to\infty$，

$$H \xrightarrow{d} \chi^2_{k-1}.$$

自由度 $k-1$ 來自 $k$ 個秩和受 $\sum_j R_j = N(N+1)/2$ 的一個線性約束。ties 校正為除以 $1-\sum_g(t_g^3-t_g)/(N^3-N)$。

定量小範例：Mann–Whitney 逐步計算

A 組（新教學法）測驗分數：$\{82, 91, 76\}$，B 組（傳統）：$\{70, 88, 65, 79\}$。$m=3,\ n=4,\ N=7$。

步驟一：混合排名（由小到大）。

值	65	70	76	79	82	88	91
組	B	B	A	B	A	B	A
秩	1	2	3	4	5	6	7

步驟二：A 組秩和 $R_A = 3+5+7 = 15$。

步驟三：$U$ 統計量

$$U_A = R_A - \frac{m(m+1)}{2} = 15 - \frac{3\cdot 4}{2} = 15 - 6 = 9.$$

驗算：$U_A+U_B=mn=12$，故 $U_B=3$，取 $U=\min=3$。

步驟四：標準化（大樣本近似，僅示範）

$$\mathbb{E}[U]=\frac{mn}{2}=6,\quad \operatorname{Var}(U)=\frac{mn(N+1)}{12}=\frac{12\cdot 8}{12}=8.$$

$$Z = \frac{U-6}{\sqrt{8}} = \frac{3-6}{2.83} \approx -1.06.$$

$|Z|<1.96$，於 $\alpha=0.05$ 不拒絕 $H_0$。注意樣本如此小（$N=7$）時應查 $U$ 的精確分配表而非常態近似——本例僅示範流程。我們的結論是「沒有足夠證據顯示兩教學法的分數分配不同」，不可反推「兩法相等」，更不可宣稱教學法「導致」分數差異——這只是觀察性的分配比較。

深入探討（研究所視角）

漸近相對效率（ARE）與 Hodges–Lehmann 估計。 等級檢定常被誤認為「犧牲效能換穩健」，但 Pitman 漸近相對效率給出更細緻的圖像。在常態位移模型下，Wilcoxon rank-sum 相對於 $t$ 檢定的 ARE 為 $3/\pi\approx 0.955$——僅損失約 5% 效率；而在重尾或污染分配下 ARE 可遠大於 1。Hodges–Lehmann 估計量 $\hat\Delta = \operatorname{median}\{X_i - Y_j\}$ 是與 Mann–Whitney 檢定「對偶」的點估計：它正是使檢定統計量等於其虛無期望的位移量。其影響函數有界，故為穩健估計量；透過反轉檢定（test inversion）可得分配自由的信賴區間，這在偏態資料下比 $t$ 區間更可信。切記：此區間覆蓋的是位移參數，誤把它解讀成「平均數差」的覆蓋率聲明同樣是 p 值／信賴區間的典型誤解。

秩作為近似充分統計量與經驗過程觀點。 在更現代的框架下，等級檢定可由經驗分配函數 $\hat F_X,\hat F_Y$ 的泛函導出。Mann–Whitney 統計量是 $\int \hat F_X\, d\hat F_Y$ 的樣本版本，估計母體量 $\theta=\Pr(X>Y)$（即 AUC，ROC 曲線下面積）。其漸近常態性可由 Hájek 投影或 U-statistic 理論嚴格建立：$U/mn$ 是核 $h(x,y)=\mathbf{1}\{x>y\}$ 的二樣本 U-統計量，方差由投影的條件期望項主導。這條線索直接把 Mann–Whitney 與機器學習的 AUC 串起來——優化 AUC 等價於最大化跨類別的成對排序正確率。

概似、貝氏與半參數對應。 雖然名為 distribution-free，等級方法在比例風險（proportional odds）或位移族中對應到明確的概似結構：Wilcoxon 檢定是比例勝算模型在 $\beta=0$ 處的 score test，這把它嵌入了最大概似與半參數推論的體系。貝氏對應方面，可對潛在連續位置施加先驗、以秩似然（rank likelihood，Pettitt 1982）邊際化掉未知邊際分配，得到對單調轉換不變的後驗——與 copula／高斯 copula 的半參數估計密切相關。

因果推論的連結與界限。 在隨機化實驗下，等級檢定可作為 Fisher 隨機化推論（randomization inference）的特例：虛無分配直接來自處理分派的排列，無需任何母體分配假設，這是它在因果框架中地位穩固的根源。然而一旦離開隨機化（觀察性資料），分配差異與「因果效應」之間仍隔著可忽略性（ignorability）與無未測混淆的強假設。等級檢定能嚴謹地告訴你「兩組分配是否一致」，卻無法獨力把這份一致性升級為因果結論——統計素養的底線，依然是把「分配差異」與「因果」清楚分開。

← 上一篇

當鐘形曲線靠不住：無母數方法工具箱

--

1

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings