Home
探索 Uedu
學生控制台
註冊會員/登入
研究知情同意中心
教師控制台
課程設定
支援與訊息
Uptime 數據

UeduGPTs

--

Jupyters

2

UG26 CISOSE26
臺北 AQI 26 · 臺中 AQI 19 · 臺南 AQI 18 · 高雄 AQI 17

AI 回覆桌面通知

AI 助教回覆完成時顯示桌面通知

聊天訊息通知

同學在討論區發送訊息時通知

聲音通知

每當有新通知時播放提示音

無母數方法

等級檢定的數學機制:Mann–Whitney、Wilcoxon 與 Kruskal–Wallis

從排列等機率到漸近常態與卡方極限:推導三大無母數檢定的統計量、矩與詮釋界限

從「比較數值」到「比較名次」:等級檢定的核心直覺

當資料嚴重偏態、含有極端值,或測量尺度本身只是序位(ordinal)時,比較平均數的 $t$ 檢定與 ANOVA 便失去了立足點。等級檢定(rank tests)的核心想法極為簡潔:丟掉原始數值,只保留它們的相對名次。一旦把觀測值轉成等級,分配函數的具體形狀就被「洗掉」了——在虛無假設下,所有觀測值來自同一連續分配,於是任何一種名次排列都等機率出現。這個「排列等機率」的結構,正是 Mann–Whitney、Wilcoxon 與 Kruskal–Wallis 三大檢定共同的數學引擎,也讓它們成為 distribution-free 方法。

本篇假設讀者已熟悉假設檢定、期望值與變異數運算,將直接推導三者的統計量、其精確分配與漸近常態化的來龍去脈。

等級檢定:Mann–Whitney、Wilcoxon、Kruskal–Wallis概念示意圖

Mann–Whitney $U$:成對勝負的計數與其矩

設兩獨立樣本 $X_1,\dots,X_m$ 與 $Y_1,\dots,Y_n$,$N=m+n$。定義

$$U = \sum_{i=1}^{m}\sum_{j=1}^{n} \mathbf{1}\{X_i > Y_j\},$$

即所有跨組配對中 $X$ 勝出的次數。$U$ 與 Wilcoxon 秩和 $W$ 之間有恆等式:若將全體混合後給 $X$ 組的秩和記為 $R_X$,則

$$U = R_X - \frac{m(m+1)}{2}.$$

這條關係說明 Mann–Whitney 與 Wilcoxon rank-sum 本質上是同一檢定的兩種記法。

期望值與變異數的推導。 在 $H_0:F_X=F_Y$(連續、無 ties)下,對任一配對 $\Pr(X_i>Y_j)=\tfrac12$,故

$$\mathbb{E}[U] = mn\cdot \tfrac12 = \frac{mn}{2}.$$

變異數需考慮配對間的相依。令 $I_{ij}=\mathbf{1}\{X_i>Y_j\}$。同一個 $X_i$ 參與的兩個比較、或同一個 $Y_j$ 參與的兩個比較並不獨立。透過計算 $\mathbb{E}[I_{ij}I_{kl}]$ 在不同重疊情形下的值(共享索引時為 $1/3$,完全不共享時為 $1/4$),可得經典結果

$$\operatorname{Var}(U) = \frac{mn(N+1)}{12}.$$

由中央極限定理的排列版本,當 $m,n\to\infty$ 時

$$Z = \frac{U - mn/2}{\sqrt{mn(N+1)/12}} \xrightarrow{d} \mathcal{N}(0,1).$$

結點(ties)校正。 若有 ties,採用 midrank(平均秩),變異數需乘上修正項。設第 $g$ 個結點群大小為 $t_g$,則

$$\operatorname{Var}(U)=\frac{mn}{12}\left(N+1-\frac{\sum_g (t_g^3-t_g)}{N(N-1)}\right).$$

詮釋陷阱。 Mann–Whitney 並非檢定「中位數相等」,而是檢定機率 $\Pr(X>Y)=\tfrac12$(隨機優越性,stochastic dominance)。只有在「位移模型」假設(兩分配僅差一平移、形狀同)下,它才等價於中位數比較。把顯著結果直接讀成「兩組中位數不同」是常見誤用。

Wilcoxon 符號秩:配對設計的對稱性利用

對於配對或單樣本資料,令差值 $D_i = X_i - \theta_0$。Wilcoxon 符號秩檢定先取 $|D_i|$ 排名得 $R_i$,再定義正號秩和

$$W^+ = \sum_{i=1}^{n} R_i\,\mathbf{1}\{D_i>0\}.$$

在 $H_0$:$D_i$ 對稱分布於 $0$ 時,每個 $|D_i|$ 的符號獨立且各以 $1/2$ 為正。將 $W^+=\sum_i R_i S_i$($S_i\in\{0,1\}$ 為是否為正),由 $\mathbb{E}[S_i]=\tfrac12$、$\operatorname{Var}(S_i)=\tfrac14$ 且各 $S_i$ 獨立:

$$\mathbb{E}[W^+] = \frac{1}{2}\sum_{i=1}^n R_i = \frac{n(n+1)}{4},$$

$$\operatorname{Var}(W^+) = \frac{1}{4}\sum_{i=1}^n R_i^2 = \frac{1}{4}\cdot\frac{n(n+1)(2n+1)}{6} = \frac{n(n+1)(2n+1)}{24}.$$

這裡用到 $\sum_{i=1}^n R_i^2 = \sum_{k=1}^n k^2$,因為秩恰是 $1,\dots,n$ 的排列。同樣可得漸近常態近似。值得強調:符號秩檢定要求對稱性假設,而非僅僅連續性——這是它與符號檢定(sign test,只用符號、僅需中位數定義)的關鍵差異。

Kruskal–Wallis:多組推廣與卡方極限

將 Mann–Whitney 推廣到 $k\ge 3$ 組即得 Kruskal–Wallis 檢定。混合全部 $N$ 個觀測值排名,令第 $j$ 組秩和為 $R_j$、組大小 $n_j$。統計量

$$H = \frac{12}{N(N+1)}\sum_{j=1}^{k}\frac{R_j^2}{n_j} - 3(N+1).$$

其推導思路是:將各組平均秩 $\bar R_j = R_j/n_j$ 與全體平均秩 $(N+1)/2$ 的加權平方偏差標準化。由於秩的總變異固定,$H$ 本質上是「組間秩變異 / 秩的理論變異」的比值。在 $H_0$ 下,當各 $n_j\to\infty$,

$$H \xrightarrow{d} \chi^2_{k-1}.$$

自由度 $k-1$ 來自 $k$ 個秩和受 $\sum_j R_j = N(N+1)/2$ 的一個線性約束。ties 校正為除以 $1-\sum_g(t_g^3-t_g)/(N^3-N)$。

定量小範例:Mann–Whitney 逐步計算

A 組(新教學法)測驗分數:$\{82, 91, 76\}$,B 組(傳統):$\{70, 88, 65, 79\}$。$m=3,\ n=4,\ N=7$。

步驟一:混合排名(由小到大)。

65 70 76 79 82 88 91
B B A B A B A
1 2 3 4 5 6 7

步驟二:A 組秩和 $R_A = 3+5+7 = 15$。

步驟三:$U$ 統計量

$$U_A = R_A - \frac{m(m+1)}{2} = 15 - \frac{3\cdot 4}{2} = 15 - 6 = 9.$$

驗算:$U_A+U_B=mn=12$,故 $U_B=3$,取 $U=\min=3$。

步驟四:標準化(大樣本近似,僅示範)

$$\mathbb{E}[U]=\frac{mn}{2}=6,\quad \operatorname{Var}(U)=\frac{mn(N+1)}{12}=\frac{12\cdot 8}{12}=8.$$

$$Z = \frac{U-6}{\sqrt{8}} = \frac{3-6}{2.83} \approx -1.06.$$

$|Z|<1.96$,於 $\alpha=0.05$ 不拒絕 $H_0$。注意樣本如此小($N=7$)時應查 $U$ 的精確分配表而非常態近似——本例僅示範流程。我們的結論是「沒有足夠證據顯示兩教學法的分數分配不同」,不可反推「兩法相等」,更不可宣稱教學法「導致」分數差異——這只是觀察性的分配比較。

深入探討(研究所視角)

漸近相對效率(ARE)與 Hodges–Lehmann 估計。 等級檢定常被誤認為「犧牲效能換穩健」,但 Pitman 漸近相對效率給出更細緻的圖像。在常態位移模型下,Wilcoxon rank-sum 相對於 $t$ 檢定的 ARE 為 $3/\pi\approx 0.955$——僅損失約 5% 效率;而在重尾或污染分配下 ARE 可遠大於 1。Hodges–Lehmann 估計量 $\hat\Delta = \operatorname{median}\{X_i - Y_j\}$ 是與 Mann–Whitney 檢定「對偶」的點估計:它正是使檢定統計量等於其虛無期望的位移量。其影響函數有界,故為穩健估計量;透過反轉檢定(test inversion)可得分配自由的信賴區間,這在偏態資料下比 $t$ 區間更可信。切記:此區間覆蓋的是位移參數,誤把它解讀成「平均數差」的覆蓋率聲明同樣是 p 值/信賴區間的典型誤解。

秩作為近似充分統計量與經驗過程觀點。 在更現代的框架下,等級檢定可由經驗分配函數 $\hat F_X,\hat F_Y$ 的泛函導出。Mann–Whitney 統計量是 $\int \hat F_X\, d\hat F_Y$ 的樣本版本,估計母體量 $\theta=\Pr(X>Y)$(即 AUC,ROC 曲線下面積)。其漸近常態性可由 Hájek 投影或 U-statistic 理論嚴格建立:$U/mn$ 是核 $h(x,y)=\mathbf{1}\{x>y\}$ 的二樣本 U-統計量,方差由投影的條件期望項主導。這條線索直接把 Mann–Whitney 與機器學習的 AUC 串起來——優化 AUC 等價於最大化跨類別的成對排序正確率。

概似、貝氏與半參數對應。 雖然名為 distribution-free,等級方法在比例風險(proportional odds)或位移族中對應到明確的概似結構:Wilcoxon 檢定是比例勝算模型在 $\beta=0$ 處的 score test,這把它嵌入了最大概似與半參數推論的體系。貝氏對應方面,可對潛在連續位置施加先驗、以秩似然(rank likelihood,Pettitt 1982)邊際化掉未知邊際分配,得到對單調轉換不變的後驗——與 copula/高斯 copula 的半參數估計密切相關。

因果推論的連結與界限。 在隨機化實驗下,等級檢定可作為 Fisher 隨機化推論(randomization inference)的特例:虛無分配直接來自處理分派的排列,無需任何母體分配假設,這是它在因果框架中地位穩固的根源。然而一旦離開隨機化(觀察性資料),分配差異與「因果效應」之間仍隔著可忽略性(ignorability)與無未測混淆的強假設。等級檢定能嚴謹地告訴你「兩組分配是否一致」,卻無法獨力把這份一致性升級為因果結論——統計素養的底線,依然是把「分配差異」與「因果」清楚分開。

AI 共讀助教正在陪你讀:等級檢定的數學機制:Mann–Whitney、Wilcoxon 與 Kruskal–Wallis
嗨!我是這篇文章的共讀助教,只根據〈等級檢定的數學機制:Mann–Whitney、Wilcoxon 與 Kruskal–Wallis〉的內容回答。可以問我「解釋某段」「舉個例子」「出題考我」,或反白文中段落後點下方「解釋選取段落」。