變異數的分解、z 分數與標準化

從全變異數分解定律到標準化的代數機制，兼談估計量的漸近性質與機器學習連結

進階 · 約 12 分鐘 ·#變異數分解#z分數#標準化#自由度#全變異數定律#估計量漸近性

為什麼要把變異「拆開」與「標準化」

當我們說一筆資料「散得很開」，背後其實藏著兩個更深的問題：這份離散程度是「誰造成的」，以及它在「什麼尺度下衡量」。前者是變異數分解（variance decomposition）的核心——把總變異拆成可解釋與不可解釋的成分；後者是標準化（standardization）的核心——把任意尺度的觀測值轉換到一個無量綱、可比較的座標系。這兩件事看似獨立，實則是同一套二階動差（second moment）運算的不同切面。本篇假設你已熟悉期望值、變異數與樣本統計量的定義，直接進入推導與機制。

變異數的代數恆等式與分解骨架

設隨機變數 $X$ 具期望值 $\mu = \mathbb{E}[X]$，其變異數定義為 $\sigma^2 = \mathbb{E}[(X-\mu)^2]$。展開平方項可得最常用的計算恆等式：

$$\sigma^2 = \mathbb{E}[X^2] - (\mathbb{E}[X])^2.$$

這個式子之所以重要，是因為它把「對偏差平方取期望」轉成「先取二階動差再扣掉一階動差平方」，計算上更穩定，也是後續所有分解的起點。

真正有分析力量的，是條件變異數分解定律（law of total variance）。對於兩個隨機變數 $X, Y$：

$$\operatorname{Var}(Y) = \underbrace{\mathbb{E}\big[\operatorname{Var}(Y \mid X)\big]}_{\text{組內變異（不可解釋）}} + \underbrace{\operatorname{Var}\big(\mathbb{E}[Y \mid X]\big)}_{\text{組間變異（可解釋）}}.$$

這個式子是變異數分析（ANOVA）、混合效應模型與決定係數 $R^2$ 的共同數學祖先。它告訴我們：總變異總是等於「在每個 $X$ 條件下殘留的平均散度」加上「條件期望本身隨 $X$ 波動的散度」。當 $X$（例如分組變數）能解釋越多 $Y$ 的變化，第二項就越大、第一項越小。

變異數的分解、z 分數與標準化概念示意圖

我們可以證明這個分解。由全期望定律 $\mathbb{E}[Y]=\mathbb{E}[\mathbb{E}[Y\mid X]]$，並令 $m(X)=\mathbb{E}[Y\mid X]$：

$$\operatorname{Var}(Y)=\mathbb{E}[(Y-\mathbb{E}[Y])^2]=\mathbb{E}\big[(Y-m(X))^2\big]+\mathbb{E}\big[(m(X)-\mathbb{E}[Y])^2\big],$$

其中交叉項 $\mathbb{E}[(Y-m(X))(m(X)-\mathbb{E}[Y])]$ 透過對 $X$ 取條件期望後為零（因為給定 $X$ 時 $\mathbb{E}[Y-m(X)\mid X]=0$）。第一項即 $\mathbb{E}[\operatorname{Var}(Y\mid X)]$，第二項即 $\operatorname{Var}(m(X))$。

樣本層次：偏差平方和的拆解與自由度

在樣本中，這個恆等式具體化為平方和分解。設第 $j$ 組第 $i$ 個觀測值 $y_{ij}$，總平均 $\bar{y}$，組平均 $\bar{y}_j$，則：

$$\underbrace{\sum_{j}\sum_{i}(y_{ij}-\bar{y})^2}_{SS_{\text{total}}}=\underbrace{\sum_{j}\sum_{i}(y_{ij}-\bar{y}_j)^2}_{SS_{\text{within}}}+\underbrace{\sum_{j}n_j(\bar{y}_j-\bar{y})^2}_{SS_{\text{between}}}.$$

交叉項在加總後因每組內 $\sum_i(y_{ij}-\bar{y}_j)=0$ 而消失。這正是樣本版的全變異數分解。要從平方和回到變異數估計，必須除以對應的自由度。樣本變異數採 $n-1$ 而非 $n$：

$$s^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2.$$

除以 $n-1$（Bessel 校正）的理由是讓 $s^2$ 成為 $\sigma^2$ 的無偏估計量。直覺是：用樣本平均 $\bar{x}$ 取代真實 $\mu$ 時，偏差平方和被系統性低估了一個 $\mu$ 與 $\bar{x}$ 之間距離的份量，恰好折損一個自由度。

z 分數：標準化的線性運算與其不變性

標準化把觀測值轉成 z 分數：

$$z = \frac{x-\mu}{\sigma}.$$

這是一個仿射變換（affine transformation）。任何隨機變數線性變換 $aX+b$ 的動差遵守 $\mathbb{E}[aX+b]=a\mu+b$ 與 $\operatorname{Var}(aX+b)=a^2\sigma^2$。代入 $a=1/\sigma,\ b=-\mu/\sigma$，立刻得到：

$$\mathbb{E}[Z]=0,\qquad \operatorname{Var}(Z)=\frac{1}{\sigma^2}\cdot\sigma^2=1.$$

因此 z 分數永遠是零均值、單位變異，與原始尺度無關——這就是「無量綱化」的數學保證。關鍵要強調：標準化只是線性平移與縮放，它不會改變分布形狀。若 $X$ 右偏，$Z$ 仍然右偏；z 分數不等於常態化。只有當 $X$ 本身為常態 $N(\mu,\sigma^2)$ 時，$Z\sim N(0,1)$ 才成立，這也是把 z 分數對應到常態分位數與機率時的隱藏前提。

定量小範例

設一份考試分數的母體為 $\mu=72,\ \sigma=8$。某生考 84 分。

步驟一：計算 z 分數。 $$z=\frac{84-72}{8}=\frac{12}{8}=1.5.$$

步驟二：若進一步假設分數近似常態，查標準常態表 $\Phi(1.5)\approx 0.9332$，代表約有 93.3% 的人分數低於此生，其百分位約為第 93 百分位。

步驟三：驗證標準化的尺度不變性。若改用百分制換算成 GPA 區間，把每個分數做線性變換 $x'=0.05x$，則 $\mu'=3.6,\ \sigma'=0.4$，此生 $x'=4.2$，其 z 分數 $=\frac{4.2-3.6}{0.4}=1.5$。z 分數完全不變——這正是標準化讓「不同科目、不同尺度成績可比較」的代數基礎。

深入探討（研究所視角）

在研究所層次，樣本變異數與 z 分數背後牽動的是估計量的漸近理論。樣本變異數 $s^2$ 雖然無偏，但其抽樣分布在常態母體下滿足 $(n-1)s^2/\sigma^2\sim\chi^2_{n-1}$，由此可推導 $\operatorname{Var}(s^2)=\frac{2\sigma^4}{n-1}$。更一般地，動差法（method of moments）告訴我們二階中央動差估計量 $\hat{\mu}_2=\frac{1}{n}\sum(x_i-\bar{x})^2$ 是一致估計量，且由中央極限定理與 delta method，$\sqrt{n}(\hat{\mu}_2-\sigma^2)\xrightarrow{d}N(0,\ \mu_4-\sigma^4)$，其中 $\mu_4$ 是四階中央動差。這說明變異數估計的精度不只取決於 $\sigma^2$，還取決於分布的峰度（kurtosis）——重尾分布下變異數估計極不穩定，這對金融與生理訊號資料尤其關鍵。

從最大概似（MLE）角度看，常態母體的 $\sigma^2$ 之 MLE 為 $\hat{\sigma}^2_{MLE}=\frac{1}{n}\sum(x_i-\bar{x})^2$，是有偏的（分母為 $n$）。MLE 與無偏估計的差異，正是「漸近無偏」與「有限樣本無偏」之爭的經典案例：當 $n\to\infty$ 兩者一致，MLE 還達到 Cramér–Rao 下界、具漸近效率。貝氏對應上，若對 $\sigma^2$ 取共軛的逆 Gamma 先驗，後驗仍為逆 Gamma，其後驗均值會在資料與先驗之間做精度加權平均；當先驗資訊趨於無資訊（Jeffreys 先驗 $p(\sigma^2)\propto 1/\sigma^2$）時，後驗推論與頻率學派的 $\chi^2$ 區間在數值上收斂。這提醒我們：自由度校正並非唯一「正確」答案，而是特定損失函數（無偏性）下的選擇。

在機器學習中，z 標準化是嶺迴歸、PCA、k-means、梯度下降前必要的前處理：未標準化會讓 L2 正則化不公平地懲罰大尺度特徵，PCA 的主成分也會被高變異尺度的變數主宰。但要強調統計素養的紅線——標準化是用訓練集的 $\mu,\sigma$ 來轉換測試集，若用全體資料估計再切分，會造成資訊洩漏（data leakage），高估模型效能。在因果推論裡，全變異數分解的「組間／組內」思維延伸為固定效果與隨機效果模型、以及變異成分分析；而 $R^2$ 作為「被解釋變異占比」雖出自同一分解，卻不能被解讀為因果效應大小——高 $R^2$ 可能來自共同原因或選擇偏誤。同理，z 分數大不代表「異常有意義」，多重比較下極端 z 值會自然出現。最後務必區分：標準誤（standard error，估計量的離散）與標準差（standard deviation，資料的離散）是兩回事，誤用會直接導致對信賴區間寬度的錯誤解讀。

← 上一篇

平均數說了一半：全距、變異數與標準差的故事

--

1

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings