Home
探索 Uedu
學生控制台
註冊會員/登入
研究知情同意中心
教師控制台
課程設定
支援與訊息
Uptime 數據

UeduGPTs

--

Jupyters

2

UG26 CISOSE26
臺北 AQI 26 · 臺中 AQI 19 · 臺南 AQI 18 · 高雄 AQI 17

AI 回覆桌面通知

AI 助教回覆完成時顯示桌面通知

聊天訊息通知

同學在討論區發送訊息時通知

聲音通知

每當有新通知時播放提示音

隨機變數與期望值

把隨機結果變成數字:隨機變數、期望值與變異數入門

從擲骰子到摸彩決策,學會用期望值與標準差刻畫不確定性

從「會發生什麼」到「平均會是多少」

人生有很多事我們無法事先確定:擲一次骰子會出現幾點?明天通勤要花幾分鐘?某位學生這次小考會考幾分?這些「結果還沒揭曉」的情境,統計學稱為隨機現象。要用數學處理它們,第一步就是把模糊的「會發生什麼」翻譯成一個明確的數字。

這個翻譯工具,就是隨機變數(random variable)。它本質上是一個函數,把每一種可能發生的結果,對應到一個實數。例如「擲一顆骰子的點數」是一個隨機變數,記為 $X$,它可能等於 $1, 2, 3, 4, 5, 6$。一旦把隨機結果變成數字,我們就能問更有力的問題:平均而言會是多少?結果會有多分散?這正是期望值變異數要回答的。

一張圖看懂隨機變數在做什麼

隨機變數與期望值概念示意圖

隨機變數可分成兩大類。離散型隨機變數的可能值是「一個一個數得出來」的,例如骰子點數、一週收到的 email 數量、班上及格的人數。連續型隨機變數則可以取某個區間內的任何值,例如身高、等公車的時間、實驗測得的反應時間——這些值之間沒有「下一個」。

對離散型隨機變數,我們用機率質量函數描述每個值出現的機率,記為 $P(X=x)$。一個公正骰子滿足

$$P(X=x)=\frac{1}{6}, \quad x=1,2,3,4,5,6$$

且所有機率加起來必須等於 1:$\sum_x P(X=x)=1$。連續型則改用機率密度函數 $f(x)$,並以積分 $\int f(x)\,dx=1$ 取代加總。本文以離散情形為主軸,因為它最能讓直覺扎根。

期望值:長期平均的數學寫法

期望值(expected value)回答「重複很多次,平均會落在哪裡」。對離散型隨機變數,定義是把每個可能值乘上它的機率,再全部加起來:

$$E[X]=\sum_x x\,P(X=x)$$

以公正骰子為例:

$$E[X]=1\cdot\tfrac{1}{6}+2\cdot\tfrac{1}{6}+3\cdot\tfrac{1}{6}+4\cdot\tfrac{1}{6}+5\cdot\tfrac{1}{6}+6\cdot\tfrac{1}{6}=\frac{21}{6}=3.5$$

注意 $3.5$ 點根本不可能擲出來——期望值不是「最可能的結果」,而是長期平均。如果你擲一萬次骰子取平均,會非常接近 3.5。這個「大量重複後樣本平均逼近期望值」的現象,就是著名的大數法則

期望值有個很實用的性質——線性。對任意常數 $a, b$:

$$E[aX+b]=a\,E[X]+b$$

這讓我們處理「先乘再加」的情境變得輕鬆。例如某遊戲規則是「點數乘 10 元再加報名費 5 元」,每局期望收益就是 $10\times 3.5+5=40$ 元,不必重算整個分布。

變異數與標準差:刻畫「有多不穩」

光知道平均還不夠。想像兩位學生平均都考 70 分:一位每次都在 68~72 之間,另一位則在 40~100 之間大起大落。平均相同,但「穩定度」天差地別。變異數(variance)就是用來量化這種分散程度,定義為「離開期望值的平方距離」的期望值:

$$\mathrm{Var}(X)=E\big[(X-\mu)^2\big]=\sum_x (x-\mu)^2\,P(X=x)$$

其中 $\mu=E[X]$。實務上常用一個等價的快捷公式:

$$\mathrm{Var}(X)=E[X^2]-\big(E[X]\big)^2$$

繼續用骰子示範。先算 $E[X^2]$:

$$E[X^2]=\frac{1^2+2^2+3^2+4^2+5^2+6^2}{6}=\frac{91}{6}\approx 15.17$$

於是

$$\mathrm{Var}(X)=15.17-3.5^2=15.17-12.25=2.92$$

變異數的單位是「點數的平方」,不太好解讀,所以我們開根號得到標準差(standard deviation),把尺度拉回原本的單位:

$$\sigma=\sqrt{\mathrm{Var}(X)}=\sqrt{2.92}\approx 1.71 \text{ 點}$$

標準差約 1.71,意思是骰子點數典型上會偏離平均值 3.5 約 1.7 點左右。標準差越大,結果越不可預測;越小,越集中在平均附近。

一個生活化的決策範例

假設有個募款摸彩:一張券 50 元,獎項與機率如下——頭獎 1000 元(機率 0.01)、二獎 100 元(機率 0.10)、銘謝惠顧 0 元(機率 0.89)。買一張券的「淨收益」是隨機變數 $X$,先算期望獎金:

$$E[\text{獎金}]=1000\times 0.01+100\times 0.10+0\times 0.89=10+10+0=20 \text{ 元}$$

扣掉券價後,期望淨收益為 $20-50=-30$ 元。也就是說,長期而言每買一張平均「損失」30 元——這正是募款活動能持續運作的數學基礎。期望值在這裡幫我們把感性的「中獎好爽」換算成理性的長期帳。

把零散結果整理成分布

當隨機變數的行為符合某些常見模式時,統計學給了它們名字。例如「做 $n$ 次獨立試驗、每次成功機率 $p$,問成功幾次」就是二項分布,其期望值與變異數有現成公式:

$$E[X]=np, \qquad \mathrm{Var}(X)=np(1-p)$$

若一位學生答 20 題是非題、每題純猜中機率 $p=0.5$,則猜對題數的期望是 $20\times 0.5=10$ 題,變異數是 $20\times 0.5\times 0.5=5$,標準差約 2.24 題。這解釋了為什麼「全靠猜」很難穩定及格——平均剛好 10 分,波動還不小。認識這些命名分布,等於擁有一套現成的工具箱,遇到對應情境就能直接套用期望值與變異數,不必每次從頭加總。

深入探討(研究所視角)

嚴格地說,隨機變數定義在一個機率空間 $(\Omega, \mathcal{F}, P)$ 上,是一個從樣本空間 $\Omega$ 到實數的可測函數 $X:\Omega\to\mathbb{R}$,要求 $\{\omega: X(\omega)\le x\}\in\mathcal{F}$ 對任意 $x$ 成立。離散與連續只是分布測度的兩種特例;統一的描述工具是累積分布函數 $F(x)=P(X\le x)$,它對任何隨機變數都存在且右連續、單調遞增。期望值在測度論下統一寫成 Lebesgue 積分 $E[X]=\int_\Omega X\,dP$,離散的求和與連續的 Riemann 積分都是它的特例——這也說明為何兩種情形的期望值性質(線性、單調性)完全一致。

期望值不一定存在。著名的反例是 Cauchy 分布,其密度尾部太厚,使 $\int |x|f(x)\,dx$ 發散,期望值無定義;對它套用大數法則會失效。這提醒我們:許多「平均」的直覺仰賴有限矩(finite moments)這一前提。

估計的角度看,我們常用樣本去估計未知的 $\mu$ 與 $\sigma^2$。樣本平均 $\bar{X}=\frac{1}{n}\sum X_i$ 是 $\mu$ 的不偏估計量($E[\bar{X}]=\mu$),且依大數法則為一致估計量。樣本變異數採用 $S^2=\frac{1}{n-1}\sum (X_i-\bar{X})^2$ 而非除以 $n$,正是為了不偏性——分母的 $n-1$ 即自由度,反映「已用掉一個自由度去估計 $\bar{X}$」。若改除以 $n$,會系統性低估母體變異數。有效性則比較不偏估計量之間的變異數大小,Cramér–Rao 下界給出了任一不偏估計量變異數的理論最小值。

更一般的估計框架是最大概似估計(MLE):選使概似函數 $L(\theta)=\prod f(x_i;\theta)$ 最大的 $\theta$。MLE 在正則條件下具漸近不偏性與漸近有效性,是現代統計與機器學習的共同骨幹——交叉熵損失的最小化,本質上就是在做 MLE。貝氏觀點則把參數本身視為隨機變數,透過 $P(\theta\mid x)\propto P(x\mid\theta)P(\theta)$ 結合先驗與資料,輸出整個後驗分布而非單一點估計;隨資料增多,後驗會逐漸壓過先驗而與概似一致。

最後一個常被誤用的概念:期望值與變異數刻畫的是單一變數的分布,不涉及兩變數的關聯。共變異數 $\mathrm{Cov}(X,Y)=E[(X-\mu_X)(Y-\mu_Y)]$ 與相關係數雖能量化線性關聯,但相關不蘊含因果;高相關可能源於共同的潛在因子(confounder)或純屬巧合。在以期望值為基礎往多變量、迴歸與因果推論推進時,務必把「關聯」與「因果」嚴格區分,這是統計素養的核心防線。

AI 共讀助教正在陪你讀:把隨機結果變成數字:隨機變數、期望值與變異數入門
嗨!我是這篇文章的共讀助教,只根據〈把隨機結果變成數字:隨機變數、期望值與變異數入門〉的內容回答。可以問我「解釋某段」「舉個例子」「出題考我」,或反白文中段落後點下方「解釋選取段落」。