相關係數：兩變數同進退的密碼與陷阱

從一個數字看懂兩件事如何「一起變」，以及為何相關永遠不等於因果。

高中｜大學銜接 · 約 9 分鐘 ·#相關係數#皮爾森r#共變異數#相關非因果#敘述統計

當兩件事「一起變」：相關說了什麼？

你大概聽過這些說法：「身高越高，體重越重」「讀書時間越長，成績越好」「冰淇淋賣得越多，溺水的人越多」。這些句子有一個共同點——它們都在描述「兩個變數一起變動」的傾向。統計學把這種傾向量化成一個數字，叫做相關係數（correlation coefficient）。

相關係數最常見的版本是皮爾森相關係數（Pearson's $r$），它是一個介於 $-1$ 到 $+1$ 之間的數字：

$r$ 接近 $+1$：兩變數「同進退」，一個變大，另一個也傾向變大（正相關）。
$r$ 接近 $-1$：兩變數「反著走」，一個變大，另一個傾向變小（負相關）。
$r$ 接近 $0$：兩者之間沒有明顯的「直線」關係。

注意最後一句的關鍵字：直線。皮爾森相關只衡量「線性」關係的強弱，這個限制稍後會反咬我們一口。

相關與關聯概念示意圖

相關係數怎麼算出來的？

直覺上，相關係數在問一個問題：「當 $x$ 比它的平均高時，$y$ 是不是也傾向比它的平均高？」

我們先看共變異數（covariance），它把每個資料點與平均的偏差相乘再平均：

$$\text{Cov}(x,y)=\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})$$

如果 $x$ 高於平均時 $y$ 也常高於平均（兩個偏差同號），乘積為正，共變異數就偏正；若一高一低（偏差異號），乘積為負。

但共變異數有個麻煩：它帶單位。用公分算和用公尺算，數字差很多，無法跨情境比較。於是皮爾森把它「標準化」，除以兩個變數的標準差：

$$r=\frac{\sum (x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum (x_i-\bar{x})^2}\;\sqrt{\sum (y_i-\bar{y})^2}}$$

除以標準差後，單位消掉了，$r$ 就被「鎖」在 $-1$ 到 $1$ 之間，成為一個純粹比較強弱的指標。

一個帶數字的小範例

假設我們記錄了 5 位同學「每週讀書時數 $x$」與「小考分數 $y$」：

同學	$x$（時數）	$y$（分數）
A	2	50
B	4	60
C	6	70
D	8	75
E	10	95

步驟一：算平均。

$$\bar{x}=\frac{2+4+6+8+10}{5}=6,\qquad \bar{y}=\frac{50+60+70+75+95}{5}=70$$

步驟二：算各點偏差與乘積。

$x_i-\bar{x}$	$y_i-\bar{y}$	乘積	$(x_i-\bar{x})^2$	$(y_i-\bar{y})^2$
$-4$	$-20$	$80$	$16$	$400$
$-2$	$-10$	$20$	$4$	$100$
$0$	$0$	$0$	$0$	$0$
$2$	$5$	$10$	$4$	$25$
$4$	$25$	$100$	$16$	$625$

步驟三：加總。

$$\sum(x_i-\bar{x})(y_i-\bar{y})=80+20+0+10+100=210$$ $$\sum(x_i-\bar{x})^2=40,\qquad \sum(y_i-\bar{y})^2=1150$$

步驟四：代入公式。

$$r=\frac{210}{\sqrt{40}\times\sqrt{1150}}=\frac{210}{6.32\times33.91}\approx\frac{210}{214.4}\approx 0.98$$

$r\approx 0.98$ 是很強的正相關，符合直覺：讀書時間越長，分數確實傾向越高。但請忍住——還不能說「讀書讓分數變高」。

深入探討（研究所視角）

在母體層次，皮爾森相關係數定義為標準化的共變異數：$\rho=\dfrac{\text{Cov}(X,Y)}{\sigma_X\sigma_Y}$，樣本 $r$ 是它的估計量。$r$ 對 $\rho$ 一致（consistent），但並非不偏：$E[r]\neq\rho$，在小樣本與 $\rho$ 偏離 0 時偏誤尤其明顯，存在約 $-\rho(1-\rho^2)/(2n)$ 量級的修正。$r$ 的抽樣分布也高度偏斜且受 $-1,1$ 邊界擠壓，因此不能直接套常態近似做推論。Fisher 提出 $z=\frac{1}{2}\ln\frac{1+r}{1-r}=\operatorname{arctanh}(r)$ 變換，使其近似常態、變異數約為 $\frac{1}{n-3}$，這正是建構 $\rho$ 信賴區間與檢定 $H_0:\rho_1=\rho_2$ 的標準做法。

檢定 $H_0:\rho=0$ 時，統計量 $t=\frac{r\sqrt{n-2}}{\sqrt{1-r^2}}$ 在虛無假設下服從自由度 $n-2$ 的 $t$ 分布；自由度損失 2 是因為估計直線需要先估出截距與斜率兩個參數。此處要警惕對 p 值的誤解：$p$ 小只代表「若 $\rho$ 真為 0，看到這麼極端的 $r$ 很不尋常」，它不是 $\rho=0$ 的機率，也不衡量關係強弱；大樣本下即使 $r=0.05$ 都可能「顯著」。同理，95% 信賴區間的正確詮釋是「此種程序長期下有 95% 會涵蓋真值」，而非「真值有 95% 機率落在這個區間」。

$r^2$（決定係數）在簡單線性迴歸中等於被解釋變異的比例，常被當作效果量（effect size）；Cohen 給出 $r=.1/.3/.5$ 為小/中/大的經驗參考。但效果量的判讀仍須回到領域脈絡。

皮爾森只捕捉線性，對單調但非線性的關係，Spearman 等級相關或 Kendall's $\tau$ 更穩健，後者對離群值與非常態更不敏感。資訊論的互資訊（mutual information）$I(X;Y)$ 則能偵測任意形式的依賴，$I=0$ 等價於統計獨立，是機器學習特徵選擇的常用判準。值得注意的是，$\rho=0$ 僅意味「不線性相關」而非「獨立」，唯有在聯合常態分布下兩者才等價。

貝氏觀點則為 $\rho$ 設先驗（如 LKJ 分布或在 Fisher $z$ 尺度上設常態先驗），由資料更新出後驗分布，直接給出「在已觀測資料下，$\rho$ 落在某區間的可信度」——這恰好是頻率學派信賴區間常被誤解成的那種陳述。

等級相關（Spearman）與偏相關：從秩次到淨關係的嚴謹推導

--

1

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings

相關係數：兩變數同進退的密碼與陷阱

當兩件事「一起變」：相關說了什麼？

相關係數怎麼算出來的？

一個帶數字的小範例

相關不等於因果

相關係數的三個陷阱

深入探討（研究所視角）

uedu.tw

uedu.tw/fit