聯合分布、共變異數與獨立性：耦合結構的嚴謹剖析

從共變異數的推導、不相關與獨立的差異，到估計量漸近性質與因果推論的連結

進階 · 約 12 分鐘 ·#聯合分布#共變異數#獨立性#相關係數#共變異數矩陣#統計推論

從邊際到聯合：為何「各自的分布」遠遠不夠

兩個隨機變數各自的分布，無法告訴你它們如何「一起變動」。身高高的人是否傾向體重也重？股票 A 漲時 B 是否跟著漲？這類問題的答案藏在聯合分布裡，而非任何單一變數的邊際分布。本文從聯合分布的定義出發，嚴謹推導共變異數的性質、釐清「不相關」與「獨立」的差異，並以一個離散範例貫穿計算。

設 $(X, Y)$ 為定義在同一機率空間上的隨機變數對。其聯合行為由聯合累積分布函數完整刻畫：

$$F_{X,Y}(x,y) = P(X \le x,\ Y \le y).$$

連續情形下若存在聯合密度 $f_{X,Y}(x,y)$，則 $F_{X,Y}(x,y) = \int_{-\infty}^{x}\int_{-\infty}^{y} f_{X,Y}(u,v)\,dv\,du$。邊際分布是聯合分布「積分掉」另一個變數的投影：$f_X(x) = \int_{-\infty}^{\infty} f_{X,Y}(x,y)\,dy$。關鍵在於：從聯合可唯一決定邊際，但從邊際無法還原聯合——除非加上額外結構（如獨立性）。

聯合分布、共變異數與獨立性概念示意圖

共變異數：一階耦合的度量

共變異數量化 $X$ 與 $Y$ 的線性共變趨勢，定義為

$$\operatorname{Cov}(X,Y) = E\big[(X - \mu_X)(Y - \mu_Y)\big],\qquad \mu_X = E[X],\ \mu_Y = E[Y].$$

展開內積並利用期望值的線性性質，可得最常用的計算公式。推導如下：

$$ \begin{aligned} \operatorname{Cov}(X,Y) &= E[XY - X\mu_Y - \mu_X Y + \mu_X\mu_Y] \\ &= E[XY] - \mu_Y E[X] - \mu_X E[Y] + \mu_X\mu_Y \\ &= E[XY] - \mu_X\mu_Y. \end{aligned} $$

由此立刻看出 $\operatorname{Cov}(X,X) = E[X^2] - \mu_X^2 = \operatorname{Var}(X)$，即變異數是共變異數的對角特例。共變異數具雙線性性：對常數 $a,b$ 與隨機變數 $Z$，

$$\operatorname{Cov}(aX + bZ,\ Y) = a\operatorname{Cov}(X,Y) + b\operatorname{Cov}(Z,Y),$$

且 $\operatorname{Cov}(X, c) = 0$ 對任意常數 $c$。這個雙線性性質直接導出和的變異數公式：

$$\operatorname{Var}(X+Y) = \operatorname{Var}(X) + \operatorname{Var}(Y) + 2\operatorname{Cov}(X,Y).$$

推廣到 $n$ 個變數，$\operatorname{Var}\!\big(\sum_i X_i\big) = \sum_i \operatorname{Var}(X_i) + 2\sum_{i<j}\operatorname{Cov}(X_i, X_j)$。整組變數的二階結構可整理成共變異數矩陣 $\Sigma$，其中 $\Sigma_{ij} = \operatorname{Cov}(X_i, X_j)$；$\Sigma$ 恆為對稱半正定矩陣，因為對任意常數向量 $a$，$a^\top \Sigma a = \operatorname{Var}(a^\top X) \ge 0$。

獨立 vs. 不相關：一個關鍵的不對稱

$X$ 與 $Y$ 獨立的定義是聯合分布可分解為邊際之積：

$$f_{X,Y}(x,y) = f_X(x)\,f_Y(y)\quad\text{對所有 } (x,y).$$

若獨立，則對任意（可積）函數 $g, h$ 有 $E[g(X)h(Y)] = E[g(X)]\,E[h(Y)]$。取 $g, h$ 為恆等函數即得 $E[XY] = E[X]E[Y]$，故 $\operatorname{Cov}(X,Y) = 0$。

獨立 $\Rightarrow$ 不相關，但反之不成立。 不相關只約束了一階耦合（線性部分），獨立卻要求所有階的耦合都消失。一個經典反例：令 $X \sim \mathcal{N}(0,1)$，$Y = X^2$。則

$$\operatorname{Cov}(X,Y) = E[X^3] - E[X]E[X^2] = 0 - 0\cdot 1 = 0,$$

因為標準常態的奇數階動差為零。$X$ 與 $Y$ 不相關，卻顯然高度相依（$Y$ 完全由 $X$ 決定）。唯一的重要例外是聯合常態分布：此時不相關 $\Leftrightarrow$ 獨立，因為多元常態的依賴結構完全由 $\Sigma$ 決定。

定量小範例：擲兩枚硬幣的耦合

設一次試驗擲兩枚公平硬幣。令 $X$ 為「正面總數」，$Y$ 為「第一枚是否為正面」（正面記 1，反面記 0）。四個等機率結果 $\{HH, HT, TH, TT\}$ 各佔 $1/4$。列出聯合分布：

結果	機率	$X$	$Y$	$XY$
HH	1/4	2	1	2
HT	1/4	1	1	1
TH	1/4	1	0	0
TT	1/4	0	0	0

步驟 1：邊際期望值。 $$E[X] = \tfrac14(2+1+1+0) = 1,\qquad E[Y] = \tfrac14(1+1+0+0) = \tfrac12.$$

步驟 2：交叉期望值。 $$E[XY] = \tfrac14(2 + 1 + 0 + 0) = \tfrac34.$$

步驟 3：共變異數。 $$\operatorname{Cov}(X,Y) = E[XY] - E[X]E[Y] = \tfrac34 - 1\cdot\tfrac12 = \tfrac14.$$

步驟 4：標準化為相關係數。 由 $\operatorname{Var}(X) = E[X^2] - 1 = \tfrac14(4+1+1+0) - 1 = \tfrac12$，$\operatorname{Var}(Y) = \tfrac12 - \tfrac14 = \tfrac14$，得

$$\rho_{X,Y} = \frac{1/4}{\sqrt{1/2}\sqrt{1/4}} = \frac{1/4}{1/(2\sqrt2)} = \frac{\sqrt2}{2} \approx 0.707.$$

正號合理：第一枚為正面時，正面總數傾向偏高。$X$ 與 $Y$ 顯然不獨立——$P(X=0, Y=1) = 0 \ne P(X=0)P(Y=1) = \tfrac14\cdot\tfrac12$。

素養提醒：相關不是因果

共變異數與相關係數只是聯合分布的二階摘要。高相關可能源自共同的潛在原因（混淆變數）、選擇偏誤，甚至純粹巧合。看到 $\rho$ 大就宣稱「$X$ 導致 $Y$」是統計推論最常見的謬誤；而看到 $\rho \approx 0$ 就斷言「兩者無關」同樣危險，因為非線性依賴會被線性度量漏掉。判斷因果需要設計（隨機化）或可辨識的結構假設，而非僅憑相關數值。

深入探討（研究所視角）

在母體層次，$\operatorname{Cov}(X,Y)$ 是固定參數；實務上我們以樣本估計它。樣本共變異數

$$\hat{\sigma}_{XY} = \frac{1}{n-1}\sum_{i=1}^{n}(X_i - \bar X)(Y_i - \bar Y)$$

採用 $n-1$ 而非 $n$ 作為分母，使其成為無偏估計量（Bessel 校正補償了用 $\bar X, \bar Y$ 取代未知母體均值所損失的自由度）。在 i.i.d. 且四階動差有限的條件下，樣本相關係數 $\hat\rho$ 是 $\rho$ 的一致估計量，且滿足中央極限定理式的漸近常態性。由於 $\hat\rho$ 的抽樣分布在 $\rho \to \pm 1$ 附近高度偏斜，Fisher 的 $z$ 轉換 $z = \tfrac12\ln\frac{1+\hat\rho}{1-\hat\rho} = \operatorname{arctanh}(\hat\rho)$ 是經典的變異數穩定化技巧，使 $z$ 近似常態且變異數約為 $1/(n-3)$，獨立於 $\rho$——這正是建構相關係數信賴區間的標準做法。提醒：信賴區間描述的是「重複抽樣下涵蓋真值的長期頻率」，而非「真值落在此區間的機率」。

從估計理論看，多元常態下的共變異數矩陣 $\Sigma$ 有兩條經典路徑。最大概似估計（MLE） 給出 $\hat\Sigma_{\text{MLE}} = \frac1n \sum_i (X_i-\bar X)(X_i-\bar X)^\top$，它是漸近有效的（達到 Cramér–Rao 下界），但在小樣本下有偏。動差法（MoM） 則直接以樣本動差匹配理論動差，計算簡便但效率通常不及 MLE。當維度 $p$ 與樣本數 $n$ 同階成長時，$\hat\Sigma$ 變得病態（特徵值嚴重偏離真值），此時 Ledoit–Wolf 的收縮估計——把 $\hat\Sigma$ 朝結構化目標（如純量乘單位矩陣）做凸組合——能顯著降低均方誤差，是高維統計的標準工具。

貝氏對應為共變異數估計提供了自然的正則化。多元常態的共軛先驗是 Inverse-Wishart 分布（或對精度矩陣 $\Sigma^{-1}$ 用 Wishart）；後驗均值本質上就是樣本共變異數與先驗尺度矩陣的加權平均，先驗強度愈大、收縮愈多，與頻率派的收縮估計殊途同歸。

更前沿地，純線性的共變異數無法捕捉複雜依賴，於是有了多種推廣：Spearman / Kendall 等秩相關對單調非線性關係穩健；互資訊 $I(X;Y) = \operatorname{KL}\!\big(f_{X,Y} \,\|\, f_X f_Y\big)$ 度量任意形式的統計依賴，當且僅當獨立時為零；距離相關（distance correlation）則為零當且僅當完全獨立，彌補了 Pearson $\rho=0$ 不蘊含獨立的缺陷。在機器學習中，Gaussian 圖模型利用「精度矩陣 $\Sigma^{-1}$ 的零元素對應條件獨立」這個性質，以 graphical lasso 在高維下估計稀疏依賴網路。在因果推論中，更要嚴格區分邊際依賴與條件依賴：Simpson 悖論顯示邊際正相關可能在每個分層內翻轉為負，而依賴結構（透過 do-calculus 與因果圖判讀）才是辨識因果效應的關鍵——共變異數本身永遠只是觀察層次的關聯摘要，不等於介入後的反應。

← 上一篇

把隨機結果變成數字：隨機變數、期望值與變異數入門

--

1

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings