當鐘形曲線靠不住:無母數方法工具箱
資料偏態、樣本太小、尺度是順序?不假設分布的穩健檢定登場
當鐘形曲線靠不住的時候
打開任何一本入門統計課本,你會發現許多最常用的工具——例如 $t$ 檢定、變異數分析、皮爾森相關係數——都偷偷帶著一個假設:資料背後的母體服從常態分布(也就是那條左右對稱的鐘形曲線)。
問題是,真實世界的資料常常不那麼乖。學生的反應時間往往「右偏」(少數人特別慢,把尾巴拉得很長);問卷的「非常同意/同意/普通/不同意」是順序而非數量;班上只有 8 個人時,我們根本沒辦法驗證鐘形曲線長什麼樣子。
這時候,無母數方法(nonparametric methods)就登場了。它的精神是:與其假設資料來自某個特定分布,不如盡量少假設,改用「排名」「中位數」「符號」這類更穩健的訊息來做檢定。
無母數方法到底「無」了什麼
名字裡的「無母數」容易讓人誤會。它並不是「沒有任何參數」,而是「不假設母體屬於某個由少數參數(如平均數 $\mu$、標準差 $\sigma$)決定的特定分布族」。
換句話說,傳統方法問的是:「假設資料來自常態分布,那麼平均數有沒有差?」無母數方法問的是:「先不管是什麼分布,兩組資料的位置(通常用中位數代表)有沒有系統性差異?」

這帶來三個實用優點:
- 對極端值穩健:用排名取代原始數值,一個超大離群值只會變成「最大的那一名」,不會像平均數那樣被它拉走。
- 適用順序資料:滿意度、痛感分級、名次這類「能排序但間距不確定」的資料,天生適合無母數。
- 小樣本友善:不需要靠大樣本去逼近常態,許多無母數檢定在 $n$ 很小時依然有效。
代價則是:當資料真的接近常態時,無母數方法的「檢定力」(偵測到真實差異的能力)會略低於對應的母數方法。這是一種務實的取捨。
三個最常用的工具
無母數工具箱裡有幾把主力武器,幾乎一一對應到你熟悉的母數檢定:
| 你想做的事 | 母數方法(需常態) | 無母數替代 |
|---|---|---|
| 比較兩組獨立樣本 | 獨立樣本 $t$ 檢定 | Mann–Whitney U 檢定 |
| 比較配對/前後測 | 配對 $t$ 檢定 | Wilcoxon 符號等級檢定 |
| 比較三組以上 | 單因子變異數分析 | Kruskal–Wallis 檢定 |
| 衡量兩變數關聯 | 皮爾森相關 $r$ | 斯皮爾曼等級相關 $\rho$ |
它們共同的核心招式叫做等級轉換(ranking):先把所有觀測值由小到大排名,再用排名來計算統計量。
帶數字走一遍:Wilcoxon 符號等級檢定
假設我們想知道一套新的線上練習系統,是否能提升學生的測驗分數。我們找了 6 位學生,記錄他們使用前後的成績:
| 學生 | 前測 | 後測 | 差值 $d$ |
|---|---|---|---|
| A | 62 | 70 | +8 |
| B | 75 | 73 | −2 |
| C | 58 | 69 | +11 |
| D | 80 | 85 | +5 |
| E | 66 | 67 | +1 |
| F | 71 | 80 | +9 |
樣本只有 6 人,不敢假設差值服從常態。改用 Wilcoxon 符號等級檢定,步驟如下:
第一步:取差值的絕對值並排名。 絕對值為 $1, 2, 5, 8, 9, 11$,由小到大給名次:
$$1 \to 1,\quad 2 \to 2,\quad 5 \to 3,\quad 8 \to 4,\quad 9 \to 5,\quad 11 \to 6$$
第二步:把原本差值的正負號貼回名次上。 只有學生 B(差值 −2)是負號,其名次為 2。其餘都是正號。
第三步:分別加總正名次與負名次。
$$W^{+} = 1 + 3 + 4 + 5 + 6 = 19,\qquad W^{-} = 2$$
第四步:取較小者作為檢定統計量。
$$W = \min(W^{+}, W^{-}) = 2$$
第五步:查表判斷。 對 $n=6$、雙尾 $\alpha = 0.05$,Wilcoxon 檢定的臨界值約為 $1$。我們的 $W = 2$ 大於臨界值,因此不能拒絕虛無假設——在這個小樣本下,還無法宣稱新系統顯著提升了分數。
注意:這個結論不是「新系統沒效」,而是「現有證據不足以下定論」。這正是統計檢定常被誤解之處——沒有拒絕虛無假設,不等於證明虛無假設為真。
別讓統計幫你說錯話
無母數方法雖然假設少,卻不能讓你免於兩個經典陷阱:
第一,相關不等於因果。 斯皮爾曼等級相關 $\rho$ 能告訴你「讀書時數的名次」和「成績名次」是否同步上升,但即使 $\rho$ 很高,也不代表多讀書「導致」高分——也許兩者都受到「學習動機」這個第三變數驅動。
第二,p 值不是「假設為真的機率」。 假設我們算出 $p = 0.03$,它的意思是「如果虛無假設為真,得到這麼極端(或更極端)結果的機率是 3%」,而不是「虛無假設只有 3% 為真」。把這兩者混為一談,是審稿人最常抓到的錯誤之一。
當你的資料偏態、是順序尺度、或樣本太小時,先別硬套鐘形曲線。換上無母數這套工具箱,往往能讓結論更穩、更誠實。
深入探討(研究所視角)
從理論層面看,無母數檢定的合法性建立在排名統計量的分布自由(distribution-free)性質上。以 Wilcoxon 符號等級檢定為例,在虛無假設「差值分布對稱於零」之下,每個差值的正負號等機率為 $1/2$,且與其名次獨立。於是 $W^{+}$ 的抽樣分布完全由 $n$ 決定,與母體的實際形狀無關——這正是「分布自由」的核心:臨界值不依賴未知的母體分布。
漸近性質與檢定力。 當 $n$ 增大,$W^{+}$ 經中央極限定理逼近常態,均值與變異數為
$$E[W^{+}] = \frac{n(n+1)}{4},\qquad \mathrm{Var}(W^{+}) = \frac{n(n+1)(2n+1)}{24}$$
可據此構造 $z$ 統計量並做連續性與打結(ties)校正。衡量效率時常用 Pitman 漸近相對效率(ARE):當母體真為常態,Wilcoxon 對 $t$ 檢定的 ARE 約為 $3/\pi \approx 0.955$,意味只損失約 5% 的效率;但若母體厚尾(如雙指數分布),ARE 反而大於 1,無母數方法更有效率。這呼應了 Hodges–Lehmann 的洞見:穩健性的代價在常態下極小,回報在非常態下可觀。
估計觀點。 與檢定對應的 Hodges–Lehmann 估計量——所有 Walsh 平均 $(x_i+x_j)/2$ 的中位數——是位置參數的穩健不偏估計,其崩潰點(breakdown point)遠高於樣本平均數,展現對污染資料的抵抗力。一致性(consistency)則保證在弱條件下,隨 $n \to \infty$ 估計量機率收斂至真值。
現代延伸。 排列檢定(permutation test)與自助法(bootstrap)可視為無母數思想的計算化身:不靠分布假設,直接由資料重抽樣本經驗分布來逼近抽樣分布。在貝氏框架下,Dirichlet 過程等無母數先驗讓模型複雜度隨資料成長,是無母數的另一支脈絡。機器學習中的決策樹、$k$ 近鄰、核密度估計同樣不假設特定參數形式,與經典無母數統計一脈相承。值得提醒:分布自由僅針對虛無分布,效果量(如等級雙列相關 $r = z/\sqrt{N}$)與多重比較校正仍須謹慎報告,否則「穩健」也可能淪為過度詮釋的遮羞布。