平均數說了一半：全距、變異數與標準差的故事

同樣的平均分，背後可能是兩種完全不同的世界——資料有多分散，和中心在哪同樣重要。

高中｜大學銜接 · 約 9 分鐘 ·#離散程度#標準差#變異數#全距#敘述統計

平均數說了一半的故事

想像兩個班級的期中考都考了 70 分的平均。聽起來一模一樣，對吧？但走進教室你會發現天差地別。A 班每個人都落在 65 到 75 分之間，分數緊緊靠在一起；B 班卻是有人考 40 分、有人考 100 分，平均才被「拉」到 70。同樣的平均數，背後是兩種完全不同的學習現實。

這就是為什麼統計學除了關心「資料集中在哪裡」（集中趨勢，像平均數、中位數），同樣關心「資料分散得多開」——也就是這篇要談的離散程度（dispersion）。一句話總結：平均數告訴你故事的中心，離散程度告訴你故事有多曲折。

離散程度概念示意圖

最直覺的指標：全距

最容易理解的離散指標是全距（range），就是最大值減最小值：

$$R = x_{\max} - x_{\min}$$

A 班的全距是 $75 - 65 = 10$ 分，B 班是 $100 - 40 = 60$ 分。一眼就看出 B 班分散多了。

全距的優點是「快」，缺點也很明顯：它只看頭尾兩個極端值，中間幾十筆資料長什麼樣完全不管。只要有一個離群的高分或低分，全距就會被誇大。這就像用「最高的人和最矮的人身高差」來描述一個社團——資訊太少了。我們需要一個能讓每一筆資料都發聲的指標。

變異數：把每個差距都算進來

更細緻的做法是看「每筆資料離平均數有多遠」。對每個觀測值 $x_i$，它與平均數 $\bar{x}$ 的差距叫做離差 $x_i - \bar{x}$。

但這裡有個小陷阱：如果直接把所有離差加起來，正負會互相抵消，結果永遠是 0（這正是平均數的定義性質）。為了不讓正負相消，我們把每個離差平方後再平均。這就是變異數（variance）：

$$\sigma^2 = \frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2$$

我們用一個小例子算一遍。假設某社團 5 位成員每週讀書時數為 $\{2, 4, 4, 6, 9\}$ 小時。

第一步，算平均數：

$$\bar{x} = \frac{2+4+4+6+9}{5} = \frac{25}{5} = 5 \text{ 小時}$$

第二步，算每筆的離差平方：

$x_i$	$x_i - \bar{x}$	$(x_i-\bar{x})^2$
2	$-3$	9
4	$-1$	1
4	$-1$	1
6	$+1$	1
9	$+4$	16

第三步，平方差加總再平均：

$$\sigma^2 = \frac{9+1+1+1+16}{5} = \frac{28}{5} = 5.6$$

於是這組資料的變異數是 $5.6$。

標準差：把單位變回來

變異數有個讓人困擾的地方：它的單位是「小時的平方」，這在現實裡沒有意義。為了讓離散程度回到原本的單位，我們把變異數開根號，得到標準差（standard deviation）：

$$\sigma = \sqrt{\sigma^2} = \sqrt{5.6} \approx 2.37 \text{ 小時}$$

標準差可以理解成「資料點與平均數的典型距離」。這組資料平均每人讀 5 小時，而大家偏離平均的「典型幅度」大約是 2.37 小時。標準差越大，資料越分散；越小，越集中。

標準差是統計學最常用的離散指標，因為它和資料同單位、又把每筆資料都納入考量。許多後續工具——標準分數、信賴區間、假設檢定——全都建立在它之上。例如把原始分數轉成標準分數（z 分數）：

$$z = \frac{x - \bar{x}}{\sigma}$$

讀書 9 小時的那位成員，$z = \frac{9-5}{2.37} \approx 1.69$，代表他比平均高出約 1.69 個標準差。z 分數讓不同單位、不同量尺的資料可以放在同一把尺上比較。

n 還是 n−1？一個重要的小細節

你可能在課本或試算表裡看過另一個版本的變異數，分母是 $n-1$ 而不是 $n$：

$$s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2$$

差別在於：當我們手上只有樣本、想用它去估計背後整個母體的變異數時，用 $n$ 當分母會系統性地低估。改用 $n-1$（稱為自由度的修正）能讓估計「不偏」。簡單記法：

你的資料就是全部（整個母體）→ 用 $n$，記作 $\sigma^2$。
你的資料是抽樣的一部分，要推估母體 → 用 $n-1$，記作 $s^2$。

上面 5 人若是「全部成員」，用 $n=5$ 得 $5.6$；若只是從大社團「抽出的 5 人樣本」，則用 $n-1=4$，得 $s^2 = 28/4 = 7$。日常分析多半是後者，所以 Excel 的 STDEV 預設用 $n-1$。

離散程度為什麼這麼重要

離散程度不只是課本練習，它影響我們對世界的判斷。投資時，兩檔報酬率平均相同的基金，標準差大的那檔風險更高。品管時，產品尺寸的標準差越小，代表製程越穩定。做研究時，若兩組平均看似有差，但組內離散都很大、彼此重疊嚴重，那這個「差異」很可能只是隨機波動，談不上真正的效果。

這帶出一個統計素養的提醒：只報告平均數而不報告離散程度，是不完整甚至會誤導的。 看到「平均月薪 8 萬」時，務必追問分散程度——少數高薪者就能把平均拉高，多數人其實遠低於這個數字。集中趨勢與離散程度，永遠要成對地看。

深入探討（研究所視角）

從機率論的角度，變異數有更嚴謹的定義。對隨機變數 $X$，其變異數是「離差平方的期望值」：

$$\operatorname{Var}(X) = \mathbb{E}\big[(X - \mu)^2\big] = \mathbb{E}[X^2] - \big(\mathbb{E}[X]\big)^2$$

這個展開式（移動公式）是實務計算的利器。變異數還有重要的線性性質：對常數 $a,b$，$\operatorname{Var}(aX+b) = a^2\operatorname{Var}(X)$（平移不改變離散，縮放則按平方放大）；而對獨立的 $X,Y$，$\operatorname{Var}(X+Y)=\operatorname{Var}(X)+\operatorname{Var}(Y)$。後者正是為何 $n$ 個獨立同分布觀測的樣本平均，其變異數會縮小為 $\sigma^2/n$——大數法則與中央極限定理的根基。

估計量的性質解釋了 $n-1$ 之謎。樣本變異數 $s^2$ 是母體變異數 $\sigma^2$ 的不偏估計量，即 $\mathbb{E}[s^2]=\sigma^2$。直覺是：用樣本平均 $\bar{x}$（而非未知的真實 $\mu$）計算離差時，會「用掉」一個自由度，因為 $\bar{x}$ 是從同一批資料估出來的、天生比 $\mu$ 更貼近樣本，導致平方和偏小，須以 $n-1$ 補償。值得注意的是，$s^2$ 雖不偏，標準差 $s$ 卻是 $\sigma$ 的有偏估計（因為平方根是凹函數，由 Jensen 不等式可知 $\mathbb{E}[s]\le\sigma$），這常被忽略。除了不偏性，好的估計量還追求一致性（樣本越大越收斂到真值）與有效性（在不偏估計中變異數最小）。

從最大概似估計（MLE）出發，若假設資料來自常態分布，對變異數求概似函數的最大值，得到的估計量分母恰是 $n$（即 $\sigma^2_{\text{MLE}}$ 是有偏的）。這說明 MLE 不保證不偏，但在大樣本下具漸近不偏與漸近有效性。

在應用層面，當我們比較兩組平均數的差異時，效果量 Cohen's $d$ 把差異用合併標準差標準化：

$$d = \frac{\bar{x}_1 - \bar{x}_2}{s_{\text{pooled}}}$$

它回答了 p 值無法回答的問題——差異「有多大」而非「是否存在」。這呼應一個常見誤解：p 值小不等於效果大，巨大樣本下即使微不足道的差異也能達到統計顯著。離散程度（透過 $s_{\text{pooled}}$）正是把「顯著」翻譯成「實質重要」的橋樑。

貝氏觀點則把變異數本身視為帶有不確定性的參數：常以逆伽瑪分布（Inverse-Gamma）作為其共軛先驗，觀測資料後更新為後驗分布，讓我們不僅得到變異數的點估計，更得到它的整個可信區間。最後，在機器學習中，離散程度化身為著名的偏差—變異數權衡（bias–variance tradeoff）：模型的預測誤差可分解為偏差平方、變異數與不可約雜訊三項，過度複雜的模型變異數高（過擬合），過度簡單則偏差高（欠擬合），找到平衡正是泛化能力的核心。

變異數的分解、z 分數與標準化

--

1

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings