Home
探索 Uedu
學生控制台
註冊會員/登入
研究知情同意中心
教師控制台
課程設定
支援與訊息
Uptime 數據

UeduGPTs

--

Jupyters

2

UG26 CISOSE26
臺北 AQI 26 · 臺中 AQI 19 · 臺南 AQI 18 · 高雄 AQI 17

AI 回覆桌面通知

AI 助教回覆完成時顯示桌面通知

聊天訊息通知

同學在討論區發送訊息時通知

聲音通知

每當有新通知時播放提示音

相關與關聯

等級相關(Spearman)與偏相關:從秩次到淨關係的嚴謹推導

單調關係的穩健度量、混淆變數的投影消去,以及 copula 與圖模型視角下的延伸

從「單調」與「淨關係」說起

當兩個變數的關係並非直線、或被第三個變數攪局時,Pearson 積差相關往往會誤導我們。等級相關(Spearman's $\rho$)回應第一個問題:它只要求關係是「單調」(monotonic)的,不必是線性;偏相關(partial correlation)則回應第二個問題:在「扣除」其他變數的影響後,兩變數還剩下多少純粹的關聯。前者把資料換成秩次再做積差相關,後者把線性關係從變數中投影出去再看殘差的相關。兩者都是把「相關」這個概念推進到更貼近真實研究情境的工具。

等級相關概念示意圖

等級相關(Spearman)與偏相關概念示意圖

Spearman $\rho$:定義與公式來龍去脈

設樣本 $\{(x_i, y_i)\}_{i=1}^n$,將 $x$ 與 $y$ 各自轉成秩次 $R_i = \mathrm{rank}(x_i)$、$S_i = \mathrm{rank}(y_i)$。Spearman 相關係數的定義,就是把 Pearson 公式套在秩次上:

$$ \rho_S = \frac{\sum_{i=1}^n (R_i - \bar{R})(S_i - \bar{S})}{\sqrt{\sum (R_i - \bar{R})^2}\,\sqrt{\sum (S_i - \bar{S})^2}}. $$

無同分(no ties)的情形下,$R_i$ 與 $S_i$ 都是 $1, 2, \dots, n$ 的某個排列。利用整數和公式可得閉式:

$$ \bar{R} = \frac{n+1}{2}, \qquad \sum_{i=1}^n (R_i - \bar{R})^2 = \frac{n(n^2-1)}{12}. $$

定義差異 $d_i = R_i - S_i$。注意 $\sum R_i^2 = \sum S_i^2$(因為兩者都是同一組整數的平方和),於是

$$ \sum d_i^2 = \sum R_i^2 + \sum S_i^2 - 2\sum R_i S_i = 2\sum R_i^2 - 2\sum R_i S_i, $$

而分子的協方差項可寫成 $\sum (R_i-\bar R)(S_i-\bar S) = \sum R_i S_i - n\bar R\,\bar S$。將 $\sum R_i S_i = \sum R_i^2 - \tfrac{1}{2}\sum d_i^2$ 代入,並注意分母兩個標準差相等且等於 $\sqrt{n(n^2-1)/12}$,整理後得到著名的簡化式:

$$ \boxed{\;\rho_S = 1 - \frac{6\sum_{i=1}^n d_i^2}{n(n^2-1)}\;} $$

這條公式之所以漂亮,是因為它把協方差完全轉換成「秩差平方和」這個單一統計量。當兩者秩次完全一致時 $\sum d_i^2 = 0$,$\rho_S = 1$;完全相反時 $\sum d_i^2$ 取最大值 $n(n^2-1)/3$,$\rho_S = -1$。

同分校正:若存在同分,需以平均秩處理,並對分母加入校正項 $T_x = \tfrac{1}{12}\sum (t_k^3 - t_k)$($t_k$ 為第 $k$ 組同分的大小),此時應回到原始的 Pearson-on-ranks 定義,而非簡化式。

一個定量小範例

設五位學生的「每週讀書時數」$x$ 與「期末名次反轉分數」$y$ 如下,先各自排名(值越大秩越大):

學生 $x$ $R$ $y$ $S$ $d=R-S$ $d^2$
A 2 1 50 1 0 0
B 5 2 70 3 -1 1
C 7 3 65 2 1 1
D 10 4 80 4 0 0
E 12 5 95 5 0 0

於是 $\sum d_i^2 = 0+1+1+0+0 = 2$,$n = 5$:

$$ \rho_S = 1 - \frac{6 \times 2}{5(25-1)} = 1 - \frac{12}{120} = 1 - 0.1 = 0.9. $$

得 $\rho_S = 0.9$,顯示讀書時數與成績存在強烈的單調正向關係。值得注意:即使 B、C 的 $y$ 值順序與 $x$ 略有出入,Spearman 只在意「順序」是否一致,不受 $y$ 的實際數值大小或非線性尺度影響——這正是它對單調但非線性關係的穩健之處。

偏相關:把線性影響投影出去

偏相關衡量 $X$ 與 $Y$ 在控制 $Z$ 之後的線性關聯。形式上,先分別以 $Z$ 對 $X$、$Y$ 做最小平方迴歸,取殘差 $e_{X\cdot Z} = X - \hat{X}(Z)$、$e_{Y\cdot Z} = Y - \hat{Y}(Z)$,再計算這兩組殘差的 Pearson 相關。由於殘差已正交於 $Z$,剩下的相關即為「淨關係」。可推導出僅以三個兩兩相關表示的閉式:

$$ r_{XY\cdot Z} = \frac{r_{XY} - r_{XZ}\,r_{YZ}}{\sqrt{(1-r_{XZ}^2)(1-r_{YZ}^2)}}. $$

這個式子的幾何意義是:把 $X$、$Y$ 視為內積空間中的向量,偏相關就是兩者在 $Z$ 的正交補空間上投影後夾角的餘弦。分母的 $\sqrt{1-r_{XZ}^2}$ 正是投影後殘差向量的長度比例。

虛假相關的警訊:若 $r_{XY}$ 很高但 $r_{XY\cdot Z} \approx 0$,代表 $X$ 與 $Y$ 的關聯其實由共同原因 $Z$ 驅動(confounding)。反之若 $r_{XY\cdot Z}$ 比 $r_{XY}$ 更強,則 $Z$ 是抑制變數(suppressor)。把 Spearman 與偏相關結合,即得偏等級相關:先全部轉秩,再套偏相關公式,可同時處理非線性與混淆。

統計素養:別把相關當因果

無論 $\rho_S$ 或 $r_{XY\cdot Z}$ 都只描述「共變」,不證明因果。偏相關「控制」的只是被納入模型的可觀測變數;未測得的混淆因子無法被排除,這是偏相關與真正因果效應之間無法跨越的鴻溝。此外,對 $\rho_S$ 做顯著性檢定時,$p$ 值回答的是「若母體 $\rho_S=0$,觀察到至少這麼極端的樣本之機率」,不是「相關不存在的機率」,也不是效果量。小樣本下 $\rho_S$ 的抽樣分布偏離常態,應採用精確分布或置換檢定(permutation test),而非盲目套用大樣本近似的信賴區間。

深入探討(研究所視角)

漸近性質與檢定。 在虛無假設 $H_0: \rho_S = 0$ 且無同分下,可證明 $\sqrt{n-1}\,\rho_S \xrightarrow{d} N(0,1)$,這是因為 $\rho_S$ 可寫成秩次的 U-statistic 型線性組合,套用 Hoeffding 對秩統計量的中央極限結果即得。實務上更常用 $t = \rho_S\sqrt{(n-2)/(1-\rho_S^2)}$ 近似 $t_{n-2}$ 分布。母體層次上,Spearman $\rho_S$ 對應的是grade correlation,與 Kendall $\tau$ 同屬基於 copula 的相依度量:對連續邊際,$\rho_S = 12\,\mathbb{E}[F_X(X)F_Y(Y)] - 3$,僅依賴 copula $C$ 而與邊際分布無關,具有尺度不變性與對單調變換的不變性——這是 Pearson 不具備的深刻性質。

最大概似與動差法的對照。 在高斯 copula 框架下,相依參數 $\theta$ 與 Pearson 相關 $r$ 透過 $\rho_S = \tfrac{6}{\pi}\arcsin(r/2)$ 連結;以秩為基礎的 $\rho_S$ 因此可視為對 copula 參數的一種穩健動差估計量,不需假設邊際常態。相對地,若直接對高斯 copula 寫出概似函數做 MLE,估計量更有效率(達 Cramér–Rao 下界)但對邊際設定敏感;秩方法犧牲少許效率換取分布穩健性,正是穩健統計的經典 trade-off。

貝氏對應。 偏相關在貝氏圖模型中對應精度矩陣(concentration matrix)$\Omega = \Sigma^{-1}$ 的元素:$r_{XY\cdot \text{rest}} = -\omega_{XY}/\sqrt{\omega_{XX}\omega_{YY}}$。在高斯圖模型下,偏相關為零等價於兩節點在給定其餘變數時條件獨立,這把偏相關從描述統計提升為圖結構推論的核心。對 $\Sigma$ 置入 Inverse-Wishart 共軛先驗,可得 $\Omega$ 的後驗分布,進而對每條偏相關邊給出後驗信賴帶與貝氏因子,用於稀疏圖選擇(graphical lasso 即其 $\ell_1$ 正則化的頻率派對應)。

與機器學習/因果推論的連結。 高維資料下,樣本偏相關矩陣不穩定,需 graphical lasso 等正則化估計;distance correlation、HSIC 等核方法則進一步捕捉 Spearman 也偵測不到的非單調相依。在因果推論中,偏相關正是條件獨立檢定的工具,構成 PC 演算法等約束式結構學習的基石:透過反覆檢驗偏相關是否為零來剝離邊、推斷因果骨架。但這一切仍受「忠實性假設」與「無未測混淆」約束——統計上的條件獨立永遠不能單靠資料升級為因果宣稱,這是研究者必須時刻警惕的界線。

AI 共讀助教正在陪你讀:等級相關(Spearman)與偏相關:從秩次到淨關係的嚴謹推導
嗨!我是這篇文章的共讀助教,只根據〈等級相關(Spearman)與偏相關:從秩次到淨關係的嚴謹推導〉的內容回答。可以問我「解釋某段」「舉個例子」「出題考我」,或反白文中段落後點下方「解釋選取段落」。