無母數方法

當鐘形曲線靠不住：無母數方法工具箱

資料偏態、樣本太小、尺度是順序？不假設分布的穩健檢定登場

高中｜大學銜接 · 約 9 分鐘 ·#無母數方法#等級檢定#Wilcoxon#穩健統計#統計素養

當鐘形曲線靠不住的時候

打開任何一本入門統計課本，你會發現許多最常用的工具——例如 $t$ 檢定、變異數分析、皮爾森相關係數——都偷偷帶著一個假設：資料背後的母體服從常態分布（也就是那條左右對稱的鐘形曲線）。

問題是，真實世界的資料常常不那麼乖。學生的反應時間往往「右偏」（少數人特別慢，把尾巴拉得很長）；問卷的「非常同意／同意／普通／不同意」是順序而非數量；班上只有 8 個人時，我們根本沒辦法驗證鐘形曲線長什麼樣子。

這時候，無母數方法（nonparametric methods）就登場了。它的精神是：與其假設資料來自某個特定分布，不如盡量少假設，改用「排名」「中位數」「符號」這類更穩健的訊息來做檢定。

無母數方法到底「無」了什麼

名字裡的「無母數」容易讓人誤會。它並不是「沒有任何參數」，而是「不假設母體屬於某個由少數參數（如平均數 $\mu$、標準差 $\sigma$）決定的特定分布族」。

換句話說，傳統方法問的是：「假設資料來自常態分布，那麼平均數有沒有差？」無母數方法問的是：「先不管是什麼分布，兩組資料的位置（通常用中位數代表）有沒有系統性差異？」

無母數方法概念示意圖

這帶來三個實用優點：

對極端值穩健：用排名取代原始數值，一個超大離群值只會變成「最大的那一名」，不會像平均數那樣被它拉走。
適用順序資料：滿意度、痛感分級、名次這類「能排序但間距不確定」的資料，天生適合無母數。
小樣本友善：不需要靠大樣本去逼近常態，許多無母數檢定在 $n$ 很小時依然有效。

代價則是：當資料真的接近常態時，無母數方法的「檢定力」（偵測到真實差異的能力）會略低於對應的母數方法。這是一種務實的取捨。

三個最常用的工具

無母數工具箱裡有幾把主力武器，幾乎一一對應到你熟悉的母數檢定：

你想做的事	母數方法（需常態）	無母數替代
比較兩組獨立樣本	獨立樣本 $t$ 檢定	Mann–Whitney U 檢定
比較配對／前後測	配對 $t$ 檢定	Wilcoxon 符號等級檢定
比較三組以上	單因子變異數分析	Kruskal–Wallis 檢定
衡量兩變數關聯	皮爾森相關 $r$	斯皮爾曼等級相關 $\rho$

它們共同的核心招式叫做等級轉換（ranking）：先把所有觀測值由小到大排名，再用排名來計算統計量。

帶數字走一遍：Wilcoxon 符號等級檢定

假設我們想知道一套新的線上練習系統，是否能提升學生的測驗分數。我們找了 6 位學生，記錄他們使用前後的成績：

學生	前測	後測	差值 $d$
A	62	70	+8
B	75	73	−2
C	58	69	+11
D	80	85	+5
E	66	67	+1
F	71	80	+9

樣本只有 6 人，不敢假設差值服從常態。改用 Wilcoxon 符號等級檢定，步驟如下：

第一步：取差值的絕對值並排名。 絕對值為 $1, 2, 5, 8, 9, 11$，由小到大給名次：

$$1 \to 1,\quad 2 \to 2,\quad 5 \to 3,\quad 8 \to 4,\quad 9 \to 5,\quad 11 \to 6$$

第二步：把原本差值的正負號貼回名次上。 只有學生 B（差值 −2）是負號，其名次為 2。其餘都是正號。

第三步：分別加總正名次與負名次。

$$W^{+} = 1 + 3 + 4 + 5 + 6 = 19,\qquad W^{-} = 2$$

第四步：取較小者作為檢定統計量。

$$W = \min(W^{+}, W^{-}) = 2$$

第五步：查表判斷。 對 $n=6$、雙尾 $\alpha = 0.05$，Wilcoxon 檢定的臨界值約為 $1$。我們的 $W = 2$ 大於臨界值，因此不能拒絕虛無假設——在這個小樣本下，還無法宣稱新系統顯著提升了分數。

注意：這個結論不是「新系統沒效」，而是「現有證據不足以下定論」。這正是統計檢定常被誤解之處——沒有拒絕虛無假設，不等於證明虛無假設為真。

別讓統計幫你說錯話

無母數方法雖然假設少，卻不能讓你免於兩個經典陷阱：

第一，相關不等於因果。 斯皮爾曼等級相關 $\rho$ 能告訴你「讀書時數的名次」和「成績名次」是否同步上升，但即使 $\rho$ 很高，也不代表多讀書「導致」高分——也許兩者都受到「學習動機」這個第三變數驅動。

第二，p 值不是「假設為真的機率」。 假設我們算出 $p = 0.03$，它的意思是「如果虛無假設為真，得到這麼極端（或更極端）結果的機率是 3%」，而不是「虛無假設只有 3% 為真」。把這兩者混為一談，是審稿人最常抓到的錯誤之一。

當你的資料偏態、是順序尺度、或樣本太小時，先別硬套鐘形曲線。換上無母數這套工具箱，往往能讓結論更穩、更誠實。

深入探討（研究所視角）

從理論層面看，無母數檢定的合法性建立在排名統計量的分布自由（distribution-free）性質上。以 Wilcoxon 符號等級檢定為例，在虛無假設「差值分布對稱於零」之下，每個差值的正負號等機率為 $1/2$，且與其名次獨立。於是 $W^{+}$ 的抽樣分布完全由 $n$ 決定，與母體的實際形狀無關——這正是「分布自由」的核心：臨界值不依賴未知的母體分布。

漸近性質與檢定力。 當 $n$ 增大，$W^{+}$ 經中央極限定理逼近常態，均值與變異數為

$$E[W^{+}] = \frac{n(n+1)}{4},\qquad \mathrm{Var}(W^{+}) = \frac{n(n+1)(2n+1)}{24}$$

可據此構造 $z$ 統計量並做連續性與打結（ties）校正。衡量效率時常用 Pitman 漸近相對效率（ARE）：當母體真為常態，Wilcoxon 對 $t$ 檢定的 ARE 約為 $3/\pi \approx 0.955$，意味只損失約 5% 的效率；但若母體厚尾（如雙指數分布），ARE 反而大於 1，無母數方法更有效率。這呼應了 Hodges–Lehmann 的洞見：穩健性的代價在常態下極小，回報在非常態下可觀。

估計觀點。 與檢定對應的 Hodges–Lehmann 估計量——所有 Walsh 平均 $(x_i+x_j)/2$ 的中位數——是位置參數的穩健不偏估計，其崩潰點（breakdown point）遠高於樣本平均數，展現對污染資料的抵抗力。一致性（consistency）則保證在弱條件下，隨 $n \to \infty$ 估計量機率收斂至真值。

現代延伸。 排列檢定（permutation test）與自助法（bootstrap）可視為無母數思想的計算化身：不靠分布假設，直接由資料重抽樣本經驗分布來逼近抽樣分布。在貝氏框架下，Dirichlet 過程等無母數先驗讓模型複雜度隨資料成長，是無母數的另一支脈絡。機器學習中的決策樹、$k$ 近鄰、核密度估計同樣不假設特定參數形式，與經典無母數統計一脈相承。值得提醒：分布自由僅針對虛無分布，效果量（如等級雙列相關 $r = z/\sqrt{N}$）與多重比較校正仍須謹慎報告，否則「穩健」也可能淪為過度詮釋的遮羞布。

等級檢定的數學機制：Mann–Whitney、Wilcoxon 與 Kruskal–Wallis

--

1

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings