Home
探索 Uedu
學生控制台
註冊會員/登入
研究知情同意中心
教師控制台
課程設定
支援與訊息
Uptime 數據

UeduGPTs

--

Jupyters

2

UG26 CISOSE26
臺北 AQI 26 · 臺中 AQI 19 · 臺南 AQI 18 · 高雄 AQI 17

AI 回覆桌面通知

AI 助教回覆完成時顯示桌面通知

聊天訊息通知

同學在討論區發送訊息時通知

聲音通知

每當有新通知時播放提示音

無母數方法

當鐘形曲線靠不住:無母數方法工具箱

資料偏態、樣本太小、尺度是順序?不假設分布的穩健檢定登場

當鐘形曲線靠不住的時候

打開任何一本入門統計課本,你會發現許多最常用的工具——例如 $t$ 檢定、變異數分析、皮爾森相關係數——都偷偷帶著一個假設:資料背後的母體服從常態分布(也就是那條左右對稱的鐘形曲線)。

問題是,真實世界的資料常常不那麼乖。學生的反應時間往往「右偏」(少數人特別慢,把尾巴拉得很長);問卷的「非常同意/同意/普通/不同意」是順序而非數量;班上只有 8 個人時,我們根本沒辦法驗證鐘形曲線長什麼樣子。

這時候,無母數方法(nonparametric methods)就登場了。它的精神是:與其假設資料來自某個特定分布,不如盡量少假設,改用「排名」「中位數」「符號」這類更穩健的訊息來做檢定。

無母數方法到底「無」了什麼

名字裡的「無母數」容易讓人誤會。它並不是「沒有任何參數」,而是「不假設母體屬於某個由少數參數(如平均數 $\mu$、標準差 $\sigma$)決定的特定分布族」。

換句話說,傳統方法問的是:「假設資料來自常態分布,那麼平均數有沒有差?」無母數方法問的是:「先不管是什麼分布,兩組資料的位置(通常用中位數代表)有沒有系統性差異?」

無母數方法概念示意圖

這帶來三個實用優點:

  1. 對極端值穩健:用排名取代原始數值,一個超大離群值只會變成「最大的那一名」,不會像平均數那樣被它拉走。
  2. 適用順序資料:滿意度、痛感分級、名次這類「能排序但間距不確定」的資料,天生適合無母數。
  3. 小樣本友善:不需要靠大樣本去逼近常態,許多無母數檢定在 $n$ 很小時依然有效。

代價則是:當資料真的接近常態時,無母數方法的「檢定力」(偵測到真實差異的能力)會略低於對應的母數方法。這是一種務實的取捨。

三個最常用的工具

無母數工具箱裡有幾把主力武器,幾乎一一對應到你熟悉的母數檢定:

你想做的事 母數方法(需常態) 無母數替代
比較兩組獨立樣本 獨立樣本 $t$ 檢定 Mann–Whitney U 檢定
比較配對/前後測 配對 $t$ 檢定 Wilcoxon 符號等級檢定
比較三組以上 單因子變異數分析 Kruskal–Wallis 檢定
衡量兩變數關聯 皮爾森相關 $r$ 斯皮爾曼等級相關 $\rho$

它們共同的核心招式叫做等級轉換(ranking):先把所有觀測值由小到大排名,再用排名來計算統計量。

帶數字走一遍:Wilcoxon 符號等級檢定

假設我們想知道一套新的線上練習系統,是否能提升學生的測驗分數。我們找了 6 位學生,記錄他們使用前後的成績:

學生 前測 後測 差值 $d$
A 62 70 +8
B 75 73 −2
C 58 69 +11
D 80 85 +5
E 66 67 +1
F 71 80 +9

樣本只有 6 人,不敢假設差值服從常態。改用 Wilcoxon 符號等級檢定,步驟如下:

第一步:取差值的絕對值並排名。 絕對值為 $1, 2, 5, 8, 9, 11$,由小到大給名次:

$$1 \to 1,\quad 2 \to 2,\quad 5 \to 3,\quad 8 \to 4,\quad 9 \to 5,\quad 11 \to 6$$

第二步:把原本差值的正負號貼回名次上。 只有學生 B(差值 −2)是負號,其名次為 2。其餘都是正號。

第三步:分別加總正名次與負名次。

$$W^{+} = 1 + 3 + 4 + 5 + 6 = 19,\qquad W^{-} = 2$$

第四步:取較小者作為檢定統計量。

$$W = \min(W^{+}, W^{-}) = 2$$

第五步:查表判斷。 對 $n=6$、雙尾 $\alpha = 0.05$,Wilcoxon 檢定的臨界值約為 $1$。我們的 $W = 2$ 大於臨界值,因此不能拒絕虛無假設——在這個小樣本下,還無法宣稱新系統顯著提升了分數。

注意:這個結論不是「新系統沒效」,而是「現有證據不足以下定論」。這正是統計檢定常被誤解之處——沒有拒絕虛無假設,不等於證明虛無假設為真

別讓統計幫你說錯話

無母數方法雖然假設少,卻不能讓你免於兩個經典陷阱:

第一,相關不等於因果。 斯皮爾曼等級相關 $\rho$ 能告訴你「讀書時數的名次」和「成績名次」是否同步上升,但即使 $\rho$ 很高,也不代表多讀書「導致」高分——也許兩者都受到「學習動機」這個第三變數驅動。

第二,p 值不是「假設為真的機率」。 假設我們算出 $p = 0.03$,它的意思是「如果虛無假設為真,得到這麼極端(或更極端)結果的機率是 3%」,而不是「虛無假設只有 3% 為真」。把這兩者混為一談,是審稿人最常抓到的錯誤之一。

當你的資料偏態、是順序尺度、或樣本太小時,先別硬套鐘形曲線。換上無母數這套工具箱,往往能讓結論更穩、更誠實。

深入探討(研究所視角)

從理論層面看,無母數檢定的合法性建立在排名統計量的分布自由(distribution-free)性質上。以 Wilcoxon 符號等級檢定為例,在虛無假設「差值分布對稱於零」之下,每個差值的正負號等機率為 $1/2$,且與其名次獨立。於是 $W^{+}$ 的抽樣分布完全由 $n$ 決定,與母體的實際形狀無關——這正是「分布自由」的核心:臨界值不依賴未知的母體分布。

漸近性質與檢定力。 當 $n$ 增大,$W^{+}$ 經中央極限定理逼近常態,均值與變異數為

$$E[W^{+}] = \frac{n(n+1)}{4},\qquad \mathrm{Var}(W^{+}) = \frac{n(n+1)(2n+1)}{24}$$

可據此構造 $z$ 統計量並做連續性與打結(ties)校正。衡量效率時常用 Pitman 漸近相對效率(ARE):當母體真為常態,Wilcoxon 對 $t$ 檢定的 ARE 約為 $3/\pi \approx 0.955$,意味只損失約 5% 的效率;但若母體厚尾(如雙指數分布),ARE 反而大於 1,無母數方法更有效率。這呼應了 Hodges–Lehmann 的洞見:穩健性的代價在常態下極小,回報在非常態下可觀。

估計觀點。 與檢定對應的 Hodges–Lehmann 估計量——所有 Walsh 平均 $(x_i+x_j)/2$ 的中位數——是位置參數的穩健不偏估計,其崩潰點(breakdown point)遠高於樣本平均數,展現對污染資料的抵抗力。一致性(consistency)則保證在弱條件下,隨 $n \to \infty$ 估計量機率收斂至真值。

現代延伸。 排列檢定(permutation test)與自助法(bootstrap)可視為無母數思想的計算化身:不靠分布假設,直接由資料重抽樣本經驗分布來逼近抽樣分布。在貝氏框架下,Dirichlet 過程等無母數先驗讓模型複雜度隨資料成長,是無母數的另一支脈絡。機器學習中的決策樹、$k$ 近鄰、核密度估計同樣不假設特定參數形式,與經典無母數統計一脈相承。值得提醒:分布自由僅針對虛無分布,效果量(如等級雙列相關 $r = z/\sqrt{N}$)與多重比較校正仍須謹慎報告,否則「穩健」也可能淪為過度詮釋的遮羞布。

AI 共讀助教正在陪你讀:當鐘形曲線靠不住:無母數方法工具箱
嗨!我是這篇文章的共讀助教,只根據〈當鐘形曲線靠不住:無母數方法工具箱〉的內容回答。可以問我「解釋某段」「舉個例子」「出題考我」,或反白文中段落後點下方「解釋選取段落」。