把隨機結果變成數字：隨機變數、期望值與變異數入門

從擲骰子到摸彩決策，學會用期望值與標準差刻畫不確定性

高中｜大學銜接 · 約 9 分鐘 ·#隨機變數#期望值#變異數#標準差#機率分布

從「會發生什麼」到「平均會是多少」

人生有很多事我們無法事先確定：擲一次骰子會出現幾點？明天通勤要花幾分鐘？某位學生這次小考會考幾分？這些「結果還沒揭曉」的情境，統計學稱為隨機現象。要用數學處理它們，第一步就是把模糊的「會發生什麼」翻譯成一個明確的數字。

這個翻譯工具，就是隨機變數（random variable）。它本質上是一個函數，把每一種可能發生的結果，對應到一個實數。例如「擲一顆骰子的點數」是一個隨機變數，記為 $X$，它可能等於 $1, 2, 3, 4, 5, 6$。一旦把隨機結果變成數字，我們就能問更有力的問題：平均而言會是多少？結果會有多分散？這正是期望值與變異數要回答的。

一張圖看懂隨機變數在做什麼

隨機變數與期望值概念示意圖

隨機變數可分成兩大類。離散型隨機變數的可能值是「一個一個數得出來」的，例如骰子點數、一週收到的 email 數量、班上及格的人數。連續型隨機變數則可以取某個區間內的任何值，例如身高、等公車的時間、實驗測得的反應時間——這些值之間沒有「下一個」。

對離散型隨機變數，我們用機率質量函數描述每個值出現的機率，記為 $P(X=x)$。一個公正骰子滿足

$$P(X=x)=\frac{1}{6}, \quad x=1,2,3,4,5,6$$

且所有機率加起來必須等於 1：$\sum_x P(X=x)=1$。連續型則改用機率密度函數 $f(x)$，並以積分 $\int f(x)\,dx=1$ 取代加總。本文以離散情形為主軸，因為它最能讓直覺扎根。

期望值：長期平均的數學寫法

期望值（expected value）回答「重複很多次，平均會落在哪裡」。對離散型隨機變數，定義是把每個可能值乘上它的機率，再全部加起來：

$$E[X]=\sum_x x\,P(X=x)$$

以公正骰子為例：

$$E[X]=1\cdot\tfrac{1}{6}+2\cdot\tfrac{1}{6}+3\cdot\tfrac{1}{6}+4\cdot\tfrac{1}{6}+5\cdot\tfrac{1}{6}+6\cdot\tfrac{1}{6}=\frac{21}{6}=3.5$$

注意 $3.5$ 點根本不可能擲出來——期望值不是「最可能的結果」，而是長期平均。如果你擲一萬次骰子取平均，會非常接近 3.5。這個「大量重複後樣本平均逼近期望值」的現象，就是著名的大數法則。

期望值有個很實用的性質——線性。對任意常數 $a, b$：

$$E[aX+b]=a\,E[X]+b$$

這讓我們處理「先乘再加」的情境變得輕鬆。例如某遊戲規則是「點數乘 10 元再加報名費 5 元」，每局期望收益就是 $10\times 3.5+5=40$ 元，不必重算整個分布。

變異數與標準差：刻畫「有多不穩」

光知道平均還不夠。想像兩位學生平均都考 70 分：一位每次都在 68～72 之間，另一位則在 40～100 之間大起大落。平均相同，但「穩定度」天差地別。變異數（variance）就是用來量化這種分散程度，定義為「離開期望值的平方距離」的期望值：

$$\mathrm{Var}(X)=E\big[(X-\mu)^2\big]=\sum_x (x-\mu)^2\,P(X=x)$$

其中 $\mu=E[X]$。實務上常用一個等價的快捷公式：

$$\mathrm{Var}(X)=E[X^2]-\big(E[X]\big)^2$$

繼續用骰子示範。先算 $E[X^2]$：

$$E[X^2]=\frac{1^2+2^2+3^2+4^2+5^2+6^2}{6}=\frac{91}{6}\approx 15.17$$

於是

$$\mathrm{Var}(X)=15.17-3.5^2=15.17-12.25=2.92$$

變異數的單位是「點數的平方」，不太好解讀，所以我們開根號得到標準差（standard deviation），把尺度拉回原本的單位：

$$\sigma=\sqrt{\mathrm{Var}(X)}=\sqrt{2.92}\approx 1.71 \text{ 點}$$

標準差約 1.71，意思是骰子點數典型上會偏離平均值 3.5 約 1.7 點左右。標準差越大，結果越不可預測；越小，越集中在平均附近。

一個生活化的決策範例

假設有個募款摸彩：一張券 50 元，獎項與機率如下——頭獎 1000 元（機率 0.01）、二獎 100 元（機率 0.10）、銘謝惠顧 0 元（機率 0.89）。買一張券的「淨收益」是隨機變數 $X$，先算期望獎金：

$$E[\text{獎金}]=1000\times 0.01+100\times 0.10+0\times 0.89=10+10+0=20 \text{ 元}$$

扣掉券價後，期望淨收益為 $20-50=-30$ 元。也就是說，長期而言每買一張平均「損失」30 元——這正是募款活動能持續運作的數學基礎。期望值在這裡幫我們把感性的「中獎好爽」換算成理性的長期帳。

把零散結果整理成分布

當隨機變數的行為符合某些常見模式時，統計學給了它們名字。例如「做 $n$ 次獨立試驗、每次成功機率 $p$，問成功幾次」就是二項分布，其期望值與變異數有現成公式：

$$E[X]=np, \qquad \mathrm{Var}(X)=np(1-p)$$

若一位學生答 20 題是非題、每題純猜中機率 $p=0.5$，則猜對題數的期望是 $20\times 0.5=10$ 題，變異數是 $20\times 0.5\times 0.5=5$，標準差約 2.24 題。這解釋了為什麼「全靠猜」很難穩定及格——平均剛好 10 分，波動還不小。認識這些命名分布，等於擁有一套現成的工具箱，遇到對應情境就能直接套用期望值與變異數，不必每次從頭加總。

深入探討（研究所視角）

嚴格地說，隨機變數定義在一個機率空間 $(\Omega, \mathcal{F}, P)$ 上，是一個從樣本空間 $\Omega$ 到實數的可測函數 $X:\Omega\to\mathbb{R}$，要求 $\{\omega: X(\omega)\le x\}\in\mathcal{F}$ 對任意 $x$ 成立。離散與連續只是分布測度的兩種特例；統一的描述工具是累積分布函數 $F(x)=P(X\le x)$，它對任何隨機變數都存在且右連續、單調遞增。期望值在測度論下統一寫成 Lebesgue 積分 $E[X]=\int_\Omega X\,dP$，離散的求和與連續的 Riemann 積分都是它的特例——這也說明為何兩種情形的期望值性質（線性、單調性）完全一致。

期望值不一定存在。著名的反例是 Cauchy 分布，其密度尾部太厚，使 $\int |x|f(x)\,dx$ 發散，期望值無定義；對它套用大數法則會失效。這提醒我們：許多「平均」的直覺仰賴有限矩（finite moments）這一前提。

從估計的角度看，我們常用樣本去估計未知的 $\mu$ 與 $\sigma^2$。樣本平均 $\bar{X}=\frac{1}{n}\sum X_i$ 是 $\mu$ 的不偏估計量（$E[\bar{X}]=\mu$），且依大數法則為一致估計量。樣本變異數採用 $S^2=\frac{1}{n-1}\sum (X_i-\bar{X})^2$ 而非除以 $n$，正是為了不偏性——分母的 $n-1$ 即自由度，反映「已用掉一個自由度去估計 $\bar{X}$」。若改除以 $n$，會系統性低估母體變異數。有效性則比較不偏估計量之間的變異數大小，Cramér–Rao 下界給出了任一不偏估計量變異數的理論最小值。

更一般的估計框架是最大概似估計（MLE）：選使概似函數 $L(\theta)=\prod f(x_i;\theta)$ 最大的 $\theta$。MLE 在正則條件下具漸近不偏性與漸近有效性，是現代統計與機器學習的共同骨幹——交叉熵損失的最小化，本質上就是在做 MLE。貝氏觀點則把參數本身視為隨機變數，透過 $P(\theta\mid x)\propto P(x\mid\theta)P(\theta)$ 結合先驗與資料，輸出整個後驗分布而非單一點估計；隨資料增多，後驗會逐漸壓過先驗而與概似一致。

最後一個常被誤用的概念：期望值與變異數刻畫的是單一變數的分布，不涉及兩變數的關聯。共變異數 $\mathrm{Cov}(X,Y)=E[(X-\mu_X)(Y-\mu_Y)]$ 與相關係數雖能量化線性關聯，但相關不蘊含因果；高相關可能源於共同的潛在因子（confounder）或純屬巧合。在以期望值為基礎往多變量、迴歸與因果推論推進時，務必把「關聯」與「因果」嚴格區分，這是統計素養的核心防線。

聯合分布、共變異數與獨立性：耦合結構的嚴謹剖析

--

1

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings