把隨機結果變成數字:隨機變數、期望值與變異數入門
從擲骰子到摸彩決策,學會用期望值與標準差刻畫不確定性
從「會發生什麼」到「平均會是多少」
人生有很多事我們無法事先確定:擲一次骰子會出現幾點?明天通勤要花幾分鐘?某位學生這次小考會考幾分?這些「結果還沒揭曉」的情境,統計學稱為隨機現象。要用數學處理它們,第一步就是把模糊的「會發生什麼」翻譯成一個明確的數字。
這個翻譯工具,就是隨機變數(random variable)。它本質上是一個函數,把每一種可能發生的結果,對應到一個實數。例如「擲一顆骰子的點數」是一個隨機變數,記為 $X$,它可能等於 $1, 2, 3, 4, 5, 6$。一旦把隨機結果變成數字,我們就能問更有力的問題:平均而言會是多少?結果會有多分散?這正是期望值與變異數要回答的。
一張圖看懂隨機變數在做什麼

隨機變數可分成兩大類。離散型隨機變數的可能值是「一個一個數得出來」的,例如骰子點數、一週收到的 email 數量、班上及格的人數。連續型隨機變數則可以取某個區間內的任何值,例如身高、等公車的時間、實驗測得的反應時間——這些值之間沒有「下一個」。
對離散型隨機變數,我們用機率質量函數描述每個值出現的機率,記為 $P(X=x)$。一個公正骰子滿足
$$P(X=x)=\frac{1}{6}, \quad x=1,2,3,4,5,6$$
且所有機率加起來必須等於 1:$\sum_x P(X=x)=1$。連續型則改用機率密度函數 $f(x)$,並以積分 $\int f(x)\,dx=1$ 取代加總。本文以離散情形為主軸,因為它最能讓直覺扎根。
期望值:長期平均的數學寫法
期望值(expected value)回答「重複很多次,平均會落在哪裡」。對離散型隨機變數,定義是把每個可能值乘上它的機率,再全部加起來:
$$E[X]=\sum_x x\,P(X=x)$$
以公正骰子為例:
$$E[X]=1\cdot\tfrac{1}{6}+2\cdot\tfrac{1}{6}+3\cdot\tfrac{1}{6}+4\cdot\tfrac{1}{6}+5\cdot\tfrac{1}{6}+6\cdot\tfrac{1}{6}=\frac{21}{6}=3.5$$
注意 $3.5$ 點根本不可能擲出來——期望值不是「最可能的結果」,而是長期平均。如果你擲一萬次骰子取平均,會非常接近 3.5。這個「大量重複後樣本平均逼近期望值」的現象,就是著名的大數法則。
期望值有個很實用的性質——線性。對任意常數 $a, b$:
$$E[aX+b]=a\,E[X]+b$$
這讓我們處理「先乘再加」的情境變得輕鬆。例如某遊戲規則是「點數乘 10 元再加報名費 5 元」,每局期望收益就是 $10\times 3.5+5=40$ 元,不必重算整個分布。
變異數與標準差:刻畫「有多不穩」
光知道平均還不夠。想像兩位學生平均都考 70 分:一位每次都在 68~72 之間,另一位則在 40~100 之間大起大落。平均相同,但「穩定度」天差地別。變異數(variance)就是用來量化這種分散程度,定義為「離開期望值的平方距離」的期望值:
$$\mathrm{Var}(X)=E\big[(X-\mu)^2\big]=\sum_x (x-\mu)^2\,P(X=x)$$
其中 $\mu=E[X]$。實務上常用一個等價的快捷公式:
$$\mathrm{Var}(X)=E[X^2]-\big(E[X]\big)^2$$
繼續用骰子示範。先算 $E[X^2]$:
$$E[X^2]=\frac{1^2+2^2+3^2+4^2+5^2+6^2}{6}=\frac{91}{6}\approx 15.17$$
於是
$$\mathrm{Var}(X)=15.17-3.5^2=15.17-12.25=2.92$$
變異數的單位是「點數的平方」,不太好解讀,所以我們開根號得到標準差(standard deviation),把尺度拉回原本的單位:
$$\sigma=\sqrt{\mathrm{Var}(X)}=\sqrt{2.92}\approx 1.71 \text{ 點}$$
標準差約 1.71,意思是骰子點數典型上會偏離平均值 3.5 約 1.7 點左右。標準差越大,結果越不可預測;越小,越集中在平均附近。
一個生活化的決策範例
假設有個募款摸彩:一張券 50 元,獎項與機率如下——頭獎 1000 元(機率 0.01)、二獎 100 元(機率 0.10)、銘謝惠顧 0 元(機率 0.89)。買一張券的「淨收益」是隨機變數 $X$,先算期望獎金:
$$E[\text{獎金}]=1000\times 0.01+100\times 0.10+0\times 0.89=10+10+0=20 \text{ 元}$$
扣掉券價後,期望淨收益為 $20-50=-30$ 元。也就是說,長期而言每買一張平均「損失」30 元——這正是募款活動能持續運作的數學基礎。期望值在這裡幫我們把感性的「中獎好爽」換算成理性的長期帳。
把零散結果整理成分布
當隨機變數的行為符合某些常見模式時,統計學給了它們名字。例如「做 $n$ 次獨立試驗、每次成功機率 $p$,問成功幾次」就是二項分布,其期望值與變異數有現成公式:
$$E[X]=np, \qquad \mathrm{Var}(X)=np(1-p)$$
若一位學生答 20 題是非題、每題純猜中機率 $p=0.5$,則猜對題數的期望是 $20\times 0.5=10$ 題,變異數是 $20\times 0.5\times 0.5=5$,標準差約 2.24 題。這解釋了為什麼「全靠猜」很難穩定及格——平均剛好 10 分,波動還不小。認識這些命名分布,等於擁有一套現成的工具箱,遇到對應情境就能直接套用期望值與變異數,不必每次從頭加總。
深入探討(研究所視角)
嚴格地說,隨機變數定義在一個機率空間 $(\Omega, \mathcal{F}, P)$ 上,是一個從樣本空間 $\Omega$ 到實數的可測函數 $X:\Omega\to\mathbb{R}$,要求 $\{\omega: X(\omega)\le x\}\in\mathcal{F}$ 對任意 $x$ 成立。離散與連續只是分布測度的兩種特例;統一的描述工具是累積分布函數 $F(x)=P(X\le x)$,它對任何隨機變數都存在且右連續、單調遞增。期望值在測度論下統一寫成 Lebesgue 積分 $E[X]=\int_\Omega X\,dP$,離散的求和與連續的 Riemann 積分都是它的特例——這也說明為何兩種情形的期望值性質(線性、單調性)完全一致。
期望值不一定存在。著名的反例是 Cauchy 分布,其密度尾部太厚,使 $\int |x|f(x)\,dx$ 發散,期望值無定義;對它套用大數法則會失效。這提醒我們:許多「平均」的直覺仰賴有限矩(finite moments)這一前提。
從估計的角度看,我們常用樣本去估計未知的 $\mu$ 與 $\sigma^2$。樣本平均 $\bar{X}=\frac{1}{n}\sum X_i$ 是 $\mu$ 的不偏估計量($E[\bar{X}]=\mu$),且依大數法則為一致估計量。樣本變異數採用 $S^2=\frac{1}{n-1}\sum (X_i-\bar{X})^2$ 而非除以 $n$,正是為了不偏性——分母的 $n-1$ 即自由度,反映「已用掉一個自由度去估計 $\bar{X}$」。若改除以 $n$,會系統性低估母體變異數。有效性則比較不偏估計量之間的變異數大小,Cramér–Rao 下界給出了任一不偏估計量變異數的理論最小值。
更一般的估計框架是最大概似估計(MLE):選使概似函數 $L(\theta)=\prod f(x_i;\theta)$ 最大的 $\theta$。MLE 在正則條件下具漸近不偏性與漸近有效性,是現代統計與機器學習的共同骨幹——交叉熵損失的最小化,本質上就是在做 MLE。貝氏觀點則把參數本身視為隨機變數,透過 $P(\theta\mid x)\propto P(x\mid\theta)P(\theta)$ 結合先驗與資料,輸出整個後驗分布而非單一點估計;隨資料增多,後驗會逐漸壓過先驗而與概似一致。
最後一個常被誤用的概念:期望值與變異數刻畫的是單一變數的分布,不涉及兩變數的關聯。共變異數 $\mathrm{Cov}(X,Y)=E[(X-\mu_X)(Y-\mu_Y)]$ 與相關係數雖能量化線性關聯,但相關不蘊含因果;高相關可能源於共同的潛在因子(confounder)或純屬巧合。在以期望值為基礎往多變量、迴歸與因果推論推進時,務必把「關聯」與「因果」嚴格區分,這是統計素養的核心防線。