Home
探索 Uedu
學生控制台
註冊會員/登入
研究知情同意中心
教師控制台
課程設定
支援與訊息
Uptime 數據

UeduGPTs

--

Jupyters

2

UG26 CISOSE26
臺北 AQI 26 · 臺中 AQI 19 · 臺南 AQI 18 · 高雄 AQI 17

AI 回覆桌面通知

AI 助教回覆完成時顯示桌面通知

聊天訊息通知

同學在討論區發送訊息時通知

聲音通知

每當有新通知時播放提示音

離散程度

變異數的分解、z 分數與標準化

從全變異數分解定律到標準化的代數機制,兼談估計量的漸近性質與機器學習連結

為什麼要把變異「拆開」與「標準化」

當我們說一筆資料「散得很開」,背後其實藏著兩個更深的問題:這份離散程度是「誰造成的」,以及它在「什麼尺度下衡量」。前者是變異數分解(variance decomposition)的核心——把總變異拆成可解釋與不可解釋的成分;後者是標準化(standardization)的核心——把任意尺度的觀測值轉換到一個無量綱、可比較的座標系。這兩件事看似獨立,實則是同一套二階動差(second moment)運算的不同切面。本篇假設你已熟悉期望值、變異數與樣本統計量的定義,直接進入推導與機制。

變異數的代數恆等式與分解骨架

設隨機變數 $X$ 具期望值 $\mu = \mathbb{E}[X]$,其變異數定義為 $\sigma^2 = \mathbb{E}[(X-\mu)^2]$。展開平方項可得最常用的計算恆等式:

$$\sigma^2 = \mathbb{E}[X^2] - (\mathbb{E}[X])^2.$$

這個式子之所以重要,是因為它把「對偏差平方取期望」轉成「先取二階動差再扣掉一階動差平方」,計算上更穩定,也是後續所有分解的起點。

真正有分析力量的,是條件變異數分解定律(law of total variance)。對於兩個隨機變數 $X, Y$:

$$\operatorname{Var}(Y) = \underbrace{\mathbb{E}\big[\operatorname{Var}(Y \mid X)\big]}_{\text{組內變異(不可解釋)}} + \underbrace{\operatorname{Var}\big(\mathbb{E}[Y \mid X]\big)}_{\text{組間變異(可解釋)}}.$$

這個式子是變異數分析(ANOVA)、混合效應模型與決定係數 $R^2$ 的共同數學祖先。它告訴我們:總變異總是等於「在每個 $X$ 條件下殘留的平均散度」加上「條件期望本身隨 $X$ 波動的散度」。當 $X$(例如分組變數)能解釋越多 $Y$ 的變化,第二項就越大、第一項越小。

變異數的分解、z 分數與標準化概念示意圖

我們可以證明這個分解。由全期望定律 $\mathbb{E}[Y]=\mathbb{E}[\mathbb{E}[Y\mid X]]$,並令 $m(X)=\mathbb{E}[Y\mid X]$:

$$\operatorname{Var}(Y)=\mathbb{E}[(Y-\mathbb{E}[Y])^2]=\mathbb{E}\big[(Y-m(X))^2\big]+\mathbb{E}\big[(m(X)-\mathbb{E}[Y])^2\big],$$

其中交叉項 $\mathbb{E}[(Y-m(X))(m(X)-\mathbb{E}[Y])]$ 透過對 $X$ 取條件期望後為零(因為給定 $X$ 時 $\mathbb{E}[Y-m(X)\mid X]=0$)。第一項即 $\mathbb{E}[\operatorname{Var}(Y\mid X)]$,第二項即 $\operatorname{Var}(m(X))$。

樣本層次:偏差平方和的拆解與自由度

在樣本中,這個恆等式具體化為平方和分解。設第 $j$ 組第 $i$ 個觀測值 $y_{ij}$,總平均 $\bar{y}$,組平均 $\bar{y}_j$,則:

$$\underbrace{\sum_{j}\sum_{i}(y_{ij}-\bar{y})^2}_{SS_{\text{total}}}=\underbrace{\sum_{j}\sum_{i}(y_{ij}-\bar{y}_j)^2}_{SS_{\text{within}}}+\underbrace{\sum_{j}n_j(\bar{y}_j-\bar{y})^2}_{SS_{\text{between}}}.$$

交叉項在加總後因每組內 $\sum_i(y_{ij}-\bar{y}_j)=0$ 而消失。這正是樣本版的全變異數分解。要從平方和回到變異數估計,必須除以對應的自由度。樣本變異數採 $n-1$ 而非 $n$:

$$s^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2.$$

除以 $n-1$(Bessel 校正)的理由是讓 $s^2$ 成為 $\sigma^2$ 的無偏估計量。直覺是:用樣本平均 $\bar{x}$ 取代真實 $\mu$ 時,偏差平方和被系統性低估了一個 $\mu$ 與 $\bar{x}$ 之間距離的份量,恰好折損一個自由度。

z 分數:標準化的線性運算與其不變性

標準化把觀測值轉成 z 分數:

$$z = \frac{x-\mu}{\sigma}.$$

這是一個仿射變換(affine transformation)。任何隨機變數線性變換 $aX+b$ 的動差遵守 $\mathbb{E}[aX+b]=a\mu+b$ 與 $\operatorname{Var}(aX+b)=a^2\sigma^2$。代入 $a=1/\sigma,\ b=-\mu/\sigma$,立刻得到:

$$\mathbb{E}[Z]=0,\qquad \operatorname{Var}(Z)=\frac{1}{\sigma^2}\cdot\sigma^2=1.$$

因此 z 分數永遠是零均值、單位變異,與原始尺度無關——這就是「無量綱化」的數學保證。關鍵要強調:標準化只是線性平移與縮放,它不會改變分布形狀。若 $X$ 右偏,$Z$ 仍然右偏;z 分數不等於常態化。只有當 $X$ 本身為常態 $N(\mu,\sigma^2)$ 時,$Z\sim N(0,1)$ 才成立,這也是把 z 分數對應到常態分位數與機率時的隱藏前提。

定量小範例

設一份考試分數的母體為 $\mu=72,\ \sigma=8$。某生考 84 分。

步驟一:計算 z 分數。 $$z=\frac{84-72}{8}=\frac{12}{8}=1.5.$$

步驟二:若進一步假設分數近似常態,查標準常態表 $\Phi(1.5)\approx 0.9332$,代表約有 93.3% 的人分數低於此生,其百分位約為第 93 百分位。

步驟三:驗證標準化的尺度不變性。若改用百分制換算成 GPA 區間,把每個分數做線性變換 $x'=0.05x$,則 $\mu'=3.6,\ \sigma'=0.4$,此生 $x'=4.2$,其 z 分數 $=\frac{4.2-3.6}{0.4}=1.5$。z 分數完全不變——這正是標準化讓「不同科目、不同尺度成績可比較」的代數基礎。

深入探討(研究所視角)

在研究所層次,樣本變異數與 z 分數背後牽動的是估計量的漸近理論。樣本變異數 $s^2$ 雖然無偏,但其抽樣分布在常態母體下滿足 $(n-1)s^2/\sigma^2\sim\chi^2_{n-1}$,由此可推導 $\operatorname{Var}(s^2)=\frac{2\sigma^4}{n-1}$。更一般地,動差法(method of moments)告訴我們二階中央動差估計量 $\hat{\mu}_2=\frac{1}{n}\sum(x_i-\bar{x})^2$ 是一致估計量,且由中央極限定理與 delta method,$\sqrt{n}(\hat{\mu}_2-\sigma^2)\xrightarrow{d}N(0,\ \mu_4-\sigma^4)$,其中 $\mu_4$ 是四階中央動差。這說明變異數估計的精度不只取決於 $\sigma^2$,還取決於分布的峰度(kurtosis)——重尾分布下變異數估計極不穩定,這對金融與生理訊號資料尤其關鍵。

最大概似(MLE)角度看,常態母體的 $\sigma^2$ 之 MLE 為 $\hat{\sigma}^2_{MLE}=\frac{1}{n}\sum(x_i-\bar{x})^2$,是有偏的(分母為 $n$)。MLE 與無偏估計的差異,正是「漸近無偏」與「有限樣本無偏」之爭的經典案例:當 $n\to\infty$ 兩者一致,MLE 還達到 Cramér–Rao 下界、具漸近效率。貝氏對應上,若對 $\sigma^2$ 取共軛的逆 Gamma 先驗,後驗仍為逆 Gamma,其後驗均值會在資料與先驗之間做精度加權平均;當先驗資訊趨於無資訊(Jeffreys 先驗 $p(\sigma^2)\propto 1/\sigma^2$)時,後驗推論與頻率學派的 $\chi^2$ 區間在數值上收斂。這提醒我們:自由度校正並非唯一「正確」答案,而是特定損失函數(無偏性)下的選擇。

機器學習中,z 標準化是嶺迴歸、PCA、k-means、梯度下降前必要的前處理:未標準化會讓 L2 正則化不公平地懲罰大尺度特徵,PCA 的主成分也會被高變異尺度的變數主宰。但要強調統計素養的紅線——標準化是用訓練集的 $\mu,\sigma$ 來轉換測試集,若用全體資料估計再切分,會造成資訊洩漏(data leakage),高估模型效能。在因果推論裡,全變異數分解的「組間/組內」思維延伸為固定效果與隨機效果模型、以及變異成分分析;而 $R^2$ 作為「被解釋變異占比」雖出自同一分解,卻不能被解讀為因果效應大小——高 $R^2$ 可能來自共同原因或選擇偏誤。同理,z 分數大不代表「異常有意義」,多重比較下極端 z 值會自然出現。最後務必區分:標準誤(standard error,估計量的離散)與標準差(standard deviation,資料的離散)是兩回事,誤用會直接導致對信賴區間寬度的錯誤解讀。

AI 共讀助教正在陪你讀:變異數的分解、z 分數與標準化
嗨!我是這篇文章的共讀助教,只根據〈變異數的分解、z 分數與標準化〉的內容回答。可以問我「解釋某段」「舉個例子」「出題考我」,或反白文中段落後點下方「解釋選取段落」。