等級相關（Spearman）與偏相關：從秩次到淨關係的嚴謹推導

單調關係的穩健度量、混淆變數的投影消去，以及 copula 與圖模型視角下的延伸

進階 · 約 12 分鐘 ·#Spearman等級相關#偏相關#秩統計量#混淆變數#copula#條件獨立

從「單調」與「淨關係」說起

當兩個變數的關係並非直線、或被第三個變數攪局時，Pearson 積差相關往往會誤導我們。等級相關（Spearman's $\rho$）回應第一個問題：它只要求關係是「單調」（monotonic）的，不必是線性；偏相關（partial correlation）則回應第二個問題：在「扣除」其他變數的影響後，兩變數還剩下多少純粹的關聯。前者把資料換成秩次再做積差相關，後者把線性關係從變數中投影出去再看殘差的相關。兩者都是把「相關」這個概念推進到更貼近真實研究情境的工具。

等級相關概念示意圖

等級相關（Spearman）與偏相關概念示意圖

Spearman $\rho$：定義與公式來龍去脈

設樣本 $\{(x_i, y_i)\}_{i=1}^n$，將 $x$ 與 $y$ 各自轉成秩次 $R_i = \mathrm{rank}(x_i)$、$S_i = \mathrm{rank}(y_i)$。Spearman 相關係數的定義，就是把 Pearson 公式套在秩次上：

$$ \rho_S = \frac{\sum_{i=1}^n (R_i - \bar{R})(S_i - \bar{S})}{\sqrt{\sum (R_i - \bar{R})^2}\,\sqrt{\sum (S_i - \bar{S})^2}}. $$

在無同分（no ties）的情形下，$R_i$ 與 $S_i$ 都是 $1, 2, \dots, n$ 的某個排列。利用整數和公式可得閉式：

$$ \bar{R} = \frac{n+1}{2}, \qquad \sum_{i=1}^n (R_i - \bar{R})^2 = \frac{n(n^2-1)}{12}. $$

定義差異 $d_i = R_i - S_i$。注意 $\sum R_i^2 = \sum S_i^2$（因為兩者都是同一組整數的平方和），於是

$$ \sum d_i^2 = \sum R_i^2 + \sum S_i^2 - 2\sum R_i S_i = 2\sum R_i^2 - 2\sum R_i S_i, $$

而分子的協方差項可寫成 $\sum (R_i-\bar R)(S_i-\bar S) = \sum R_i S_i - n\bar R\,\bar S$。將 $\sum R_i S_i = \sum R_i^2 - \tfrac{1}{2}\sum d_i^2$ 代入，並注意分母兩個標準差相等且等於 $\sqrt{n(n^2-1)/12}$，整理後得到著名的簡化式：

$$ \boxed{\;\rho_S = 1 - \frac{6\sum_{i=1}^n d_i^2}{n(n^2-1)}\;} $$

這條公式之所以漂亮，是因為它把協方差完全轉換成「秩差平方和」這個單一統計量。當兩者秩次完全一致時 $\sum d_i^2 = 0$，$\rho_S = 1$；完全相反時 $\sum d_i^2$ 取最大值 $n(n^2-1)/3$，$\rho_S = -1$。

同分校正：若存在同分，需以平均秩處理，並對分母加入校正項 $T_x = \tfrac{1}{12}\sum (t_k^3 - t_k)$（$t_k$ 為第 $k$ 組同分的大小），此時應回到原始的 Pearson-on-ranks 定義，而非簡化式。

一個定量小範例

設五位學生的「每週讀書時數」$x$ 與「期末名次反轉分數」$y$ 如下，先各自排名（值越大秩越大）：

學生	$x$	$R$	$y$	$S$	$d=R-S$	$d^2$
A	2	1	50	1	0	0
B	5	2	70	3	-1	1
C	7	3	65	2	1	1
D	10	4	80	4	0	0
E	12	5	95	5	0	0

於是 $\sum d_i^2 = 0+1+1+0+0 = 2$，$n = 5$：

$$ \rho_S = 1 - \frac{6 \times 2}{5(25-1)} = 1 - \frac{12}{120} = 1 - 0.1 = 0.9. $$

得 $\rho_S = 0.9$，顯示讀書時數與成績存在強烈的單調正向關係。值得注意：即使 B、C 的 $y$ 值順序與 $x$ 略有出入，Spearman 只在意「順序」是否一致，不受 $y$ 的實際數值大小或非線性尺度影響——這正是它對單調但非線性關係的穩健之處。

偏相關：把線性影響投影出去

偏相關衡量 $X$ 與 $Y$ 在控制 $Z$ 之後的線性關聯。形式上，先分別以 $Z$ 對 $X$、$Y$ 做最小平方迴歸，取殘差 $e_{X\cdot Z} = X - \hat{X}(Z)$、$e_{Y\cdot Z} = Y - \hat{Y}(Z)$，再計算這兩組殘差的 Pearson 相關。由於殘差已正交於 $Z$，剩下的相關即為「淨關係」。可推導出僅以三個兩兩相關表示的閉式：

$$ r_{XY\cdot Z} = \frac{r_{XY} - r_{XZ}\,r_{YZ}}{\sqrt{(1-r_{XZ}^2)(1-r_{YZ}^2)}}. $$

這個式子的幾何意義是：把 $X$、$Y$ 視為內積空間中的向量，偏相關就是兩者在 $Z$ 的正交補空間上投影後夾角的餘弦。分母的 $\sqrt{1-r_{XZ}^2}$ 正是投影後殘差向量的長度比例。

虛假相關的警訊：若 $r_{XY}$ 很高但 $r_{XY\cdot Z} \approx 0$，代表 $X$ 與 $Y$ 的關聯其實由共同原因 $Z$ 驅動（confounding）。反之若 $r_{XY\cdot Z}$ 比 $r_{XY}$ 更強，則 $Z$ 是抑制變數（suppressor）。把 Spearman 與偏相關結合，即得偏等級相關：先全部轉秩，再套偏相關公式，可同時處理非線性與混淆。

統計素養：別把相關當因果

無論 $\rho_S$ 或 $r_{XY\cdot Z}$ 都只描述「共變」，不證明因果。偏相關「控制」的只是被納入模型的可觀測變數；未測得的混淆因子無法被排除，這是偏相關與真正因果效應之間無法跨越的鴻溝。此外，對 $\rho_S$ 做顯著性檢定時，$p$ 值回答的是「若母體 $\rho_S=0$，觀察到至少這麼極端的樣本之機率」，不是「相關不存在的機率」，也不是效果量。小樣本下 $\rho_S$ 的抽樣分布偏離常態，應採用精確分布或置換檢定（permutation test），而非盲目套用大樣本近似的信賴區間。

深入探討（研究所視角）

漸近性質與檢定。 在虛無假設 $H_0: \rho_S = 0$ 且無同分下，可證明 $\sqrt{n-1}\,\rho_S \xrightarrow{d} N(0,1)$，這是因為 $\rho_S$ 可寫成秩次的 U-statistic 型線性組合，套用 Hoeffding 對秩統計量的中央極限結果即得。實務上更常用 $t = \rho_S\sqrt{(n-2)/(1-\rho_S^2)}$ 近似 $t_{n-2}$ 分布。母體層次上，Spearman $\rho_S$ 對應的是grade correlation，與 Kendall $\tau$ 同屬基於 copula 的相依度量：對連續邊際，$\rho_S = 12\,\mathbb{E}[F_X(X)F_Y(Y)] - 3$，僅依賴 copula $C$ 而與邊際分布無關，具有尺度不變性與對單調變換的不變性——這是 Pearson 不具備的深刻性質。

最大概似與動差法的對照。 在高斯 copula 框架下，相依參數 $\theta$ 與 Pearson 相關 $r$ 透過 $\rho_S = \tfrac{6}{\pi}\arcsin(r/2)$ 連結；以秩為基礎的 $\rho_S$ 因此可視為對 copula 參數的一種穩健動差估計量，不需假設邊際常態。相對地，若直接對高斯 copula 寫出概似函數做 MLE，估計量更有效率（達 Cramér–Rao 下界）但對邊際設定敏感；秩方法犧牲少許效率換取分布穩健性，正是穩健統計的經典 trade-off。

貝氏對應。 偏相關在貝氏圖模型中對應精度矩陣（concentration matrix）$\Omega = \Sigma^{-1}$ 的元素：$r_{XY\cdot \text{rest}} = -\omega_{XY}/\sqrt{\omega_{XX}\omega_{YY}}$。在高斯圖模型下，偏相關為零等價於兩節點在給定其餘變數時條件獨立，這把偏相關從描述統計提升為圖結構推論的核心。對 $\Sigma$ 置入 Inverse-Wishart 共軛先驗，可得 $\Omega$ 的後驗分布，進而對每條偏相關邊給出後驗信賴帶與貝氏因子，用於稀疏圖選擇（graphical lasso 即其 $\ell_1$ 正則化的頻率派對應）。

與機器學習／因果推論的連結。 高維資料下，樣本偏相關矩陣不穩定，需 graphical lasso 等正則化估計；distance correlation、HSIC 等核方法則進一步捕捉 Spearman 也偵測不到的非單調相依。在因果推論中，偏相關正是條件獨立檢定的工具，構成 PC 演算法等約束式結構學習的基石：透過反覆檢驗偏相關是否為零來剝離邊、推斷因果骨架。但這一切仍受「忠實性假設」與「無未測混淆」約束——統計上的條件獨立永遠不能單靠資料升級為因果宣稱，這是研究者必須時刻警惕的界線。

← 上一篇

相關係數：兩變數同進退的密碼與陷阱

--

1

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings