量化不確定性的語言：從樣本空間到機率公理

用三條公理與一張撲克牌，看懂統計學的地基

高中｜大學銜接 · 約 9 分鐘 ·#機率基礎#樣本空間#機率公理#條件機率#貝氏定理

當「不確定」需要一種語言

生活裡到處都是不確定：明天會不會下雨？這支籤會不會中？這位病患的檢驗結果代表什麼？我們常用「應該會」「大概不會」這類模糊字眼來表達，但這些詞沒辦法拿來計算、比較或下決策。機率（probability）就是人類為了「量化不確定性」所發明的精準語言。它把含糊的直覺，翻譯成一個介於 0 到 1 之間的數字：0 代表絕不發生，1 代表必然發生，0.5 代表「五五波」。

統計學的整座大樓，都蓋在機率這個地基上。後面你會學到的抽樣分布、信賴區間、假設檢定，全都是機率的延伸應用。所以把機率的基本語彙——樣本空間、事件、機率公理——弄清楚，是學好統計最划算的投資。

機率基礎概念示意圖

樣本空間與事件：先把「可能發生的一切」列出來

要談機率，第一步是問：「這件事所有可能的結果有哪些？」把所有可能結果蒐集起來的集合，叫做樣本空間（sample space），通常記作 $S$ 或 $\Omega$。

擲一顆公正骰子：$S=\{1,2,3,4,5,6\}$。
丟一枚硬幣兩次：$S=\{\text{正正},\text{正反},\text{反正},\text{反反}\}$。

事件（event）則是樣本空間的一個子集合，也就是我們關心的某些結果。例如「骰子出現偶數」這個事件 $A=\{2,4,6\}$。事件之間還能用集合運算組合：

聯集 $A\cup B$：「$A$ 或 $B$ 發生」。
交集 $A\cap B$：「$A$ 且 $B$ 同時發生」。
補集 $A^c$：「$A$ 不發生」。

當兩個事件不可能同時發生（$A\cap B=\varnothing$），我們說它們互斥（mutually exclusive）。例如骰子「出現 1」和「出現 6」就互斥。

對於每個結果機會均等的情況，機率就是最直覺的「數數字」：

$$P(A)=\frac{\text{事件 }A\text{ 包含的結果數}}{\text{樣本空間的結果總數}}$$

以骰子出現偶數為例，$P(A)=\dfrac{3}{6}=0.5$。簡單，但這個「等機率」前提非常重要——對一顆灌了鉛的骰子，這條公式就失效了。

機率的三條公理：遊戲規則只有三條

二十世紀數學家 Kolmogorov 用三條公理，把機率變成嚴謹的數學。神奇的是，所有機率定理都能從這三條推導出來：

非負性：任何事件的機率不小於 0，即 $P(A)\ge 0$。
規範性：整個樣本空間的機率等於 1，即 $P(S)=1$。
可加性：若 $A$ 與 $B$ 互斥，則 $P(A\cup B)=P(A)+P(B)$。

從這三條，我們立刻能推出幾個好用的結果。例如補集法則：因為 $A$ 與 $A^c$ 互斥且聯集起來是整個 $S$，所以

$$P(A^c)=1-P(A)$$

這條看似平凡，卻是解題神器。當「至少一次成功」很難直接算時，往往算「一次都沒成功」的補集會輕鬆許多。

對於不互斥的事件，加法要扣掉重複計算的交集部分：

$$P(A\cup B)=P(A)+P(B)-P(A\cap B)$$

一個帶數字的小範例：抽撲克牌

從一副 52 張的標準撲克牌中隨機抽一張。令事件 $A=$「抽到紅心」，事件 $B=$「抽到 K（國王）」。我們想知道「抽到紅心或 K」的機率。

先各自算出：

$$P(A)=\frac{13}{52}=0.25,\qquad P(B)=\frac{4}{52}\approx 0.077$$

紅心有 13 張，K 有 4 張。但要小心：「紅心 K」這張牌同時屬於 $A$ 和 $B$，被算了兩次。交集只有這 1 張：

$$P(A\cap B)=\frac{1}{52}\approx 0.019$$

套用加法公式：

$$P(A\cup B)=\frac{13}{52}+\frac{4}{52}-\frac{1}{52}=\frac{16}{52}\approx 0.308$$

所以抽到紅心或 K 的機率大約 30.8%。如果忘了扣交集，會錯算成 $\frac{17}{52}\approx 0.327$——這正是初學者最常見的失誤。

條件機率與獨立：資訊如何改變機率

當我們得知某個額外資訊，機率往往會改變。條件機率（conditional probability）$P(A\mid B)$ 讀作「在 $B$ 已發生的條件下，$A$ 發生的機率」：

$$P(A\mid B)=\frac{P(A\cap B)}{P(B)},\quad P(B)>0$$

如果「知道 $B$ 發生」對 $A$ 的機率毫無影響，即 $P(A\mid B)=P(A)$，我們就說 $A$ 與 $B$ 獨立（independent），此時 $P(A\cap B)=P(A)\,P(B)$。

這裡要點出一個極常見的混淆：獨立和互斥是完全不同的概念，甚至常常相反。互斥的兩個（非零機率）事件絕對不獨立——因為一旦知道其中一個發生，另一個的機率立刻變成 0，這是天大的影響。

條件機率還引出統計推論的核心工具——貝氏定理（Bayes' theorem）：

$$P(A\mid B)=\frac{P(B\mid A)\,P(A)}{P(B)}$$

它讓我們能「反過來推論」：在觀察到證據 $B$ 之後，更新對假設 $A$ 的信念。醫學篩檢、垃圾郵件過濾、AI 推理，背後都是這條式子。

一個關於「相關不是因果」的提醒

機率語言很強大，但別忘了它只描述「同時發生的頻率」，不保證「誰造成誰」。冰淇淋銷量和溺水人數同步上升，並不代表吃冰會溺水——真正的幕後推手是夏天的氣溫。看到兩個事件機率上糾纏在一起（相關），務必追問：是否有第三個變數（共同原因）在操控？是否只是巧合？把相關直接當成因果，是統計素養中最該避開的陷阱。

深入探討（研究所視角）

入門時我們把機率當成「數結果」，但嚴謹的機率論建立在測度論（measure theory）之上。一個機率空間是三元組 $(\Omega,\mathcal{F},P)$，其中 $\mathcal{F}$ 是一個 σ-代數（σ-algebra）——對可數聯集、補集封閉的事件集合，而 $P:\mathcal{F}\to[0,1]$ 是一個可數可加的測度。Kolmogorov 公理中的可加性，在此被強化為可數可加性（countable additivity）：對兩兩互斥的可數事件序列 $\{A_i\}$，$P\!\left(\bigcup_i A_i\right)=\sum_i P(A_i)$。為什麼要這麼抽象？因為在連續樣本空間（如實數線）上，並非所有子集合都能一致地賦予機率（存在不可測集），必須先界定哪些事件「可測」，整個理論才不會自相矛盾。

在連續情形，機率由機率密度函數（pdf）$f(x)$ 描述，事件機率是積分 $P(a\le X\le b)=\int_a^b f(x)\,dx$，而非單點求和；任何單一點的機率為 0。隨機變數 $X$ 是從 $\Omega$ 到 $\mathbb{R}$ 的可測函數，其期望值 $E[X]=\int x\,f(x)\,dx$ 是線性算子，這個線性性質（$E[aX+bY]=aE[X]+bE[Y]$，無需獨立假設）是後續推導的主力。變異數 $\mathrm{Var}(X)=E[(X-\mu)^2]=E[X^2]-(E[X])^2$ 則衡量離散程度。

機率論真正連向統計的兩座橋樑是大數法則（LLN）與中央極限定理（CLT）。大數法則保證樣本平均 $\bar{X}_n$ 會收斂到母體期望 $\mu$（一致性的根基）；中央極限定理則告訴我們，無論母體分布為何，只要變異數有限，標準化後的樣本平均

$$\frac{\bar{X}_n-\mu}{\sigma/\sqrt{n}}\xrightarrow{d}\mathcal{N}(0,1)$$

會收斂到標準常態分布。這正是為什麼常態分布在統計中無所不在，也是 $z$ 統計量與後續信賴區間、$t$ 檢定的理論依據。

從這個高度回看，頻率學派與貝氏學派的分歧也更清楚：前者把機率定義為長期相對頻率，參數 $\theta$ 是固定但未知的常數；後者把機率視為信念程度，允許對 $\theta$ 賦予先驗分布 $\pi(\theta)$，再以貝氏定理 $\pi(\theta\mid x)\propto L(x\mid\theta)\,\pi(\theta)$ 更新為後驗。兩者並非對錯之爭，而是對「機率是什麼」的哲學選擇。值得一提的是，現代機器學習的許多模型（樸素貝氏分類器、機率圖模型、變分推論、乃至生成模型的概似最大化）幾乎都直接奠基於此處的機率語言——理解樣本空間、條件機率與貝氏更新，等於拿到了通往現代資料科學的鑰匙。

排列、組合與計數原理：離散機率推論的骨架

--

1

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings