少數幾個分布，描述大半個世界：二項、卜瓦松與常態

從數成敗、數稀有事件到鐘形曲線，看懂機率分布如何刻畫現實。

高中｜大學銜接 · 約 11 分鐘 ·#二項分布#卜瓦松分布#常態分布#中央極限定理#統計素養

為什麼少數幾個分布就能描述大半的世界

世界看似雜亂無章，但統計學家很早就發現：許多看似不相干的現象，其實共用著同一套「形狀」。一間便利商店一天賣出幾杯咖啡、一條生產線出現幾件瑕疵品、一群學生的身高分布——它們背後往往可以用同一個機率分布來刻畫。所謂機率分布（probability distribution），就是描述「某個隨機變數會落在哪些值、各以多大機率出現」的數學規則。

本文要介紹三個最常用、也最有代表性的分布：二項分布（成敗的計次）、卜瓦松分布（稀有事件的計次）、常態分布（連續量的鐘形曲線）。理解它們，等於拿到了打開大半現實世界的鑰匙。

常見機率分布概念示意圖

二項分布：數「成功了幾次」

想像你投一枚硬幣 $10$ 次，想知道「正好出現 $6$ 次正面」的機率。這類問題的共同特徵是：固定做 $n$ 次獨立試驗，每次只有「成功／失敗」兩種結果，每次成功機率都是同一個 $p$。符合這些條件，計次的隨機變數 $X$ 就服從二項分布，記為 $X \sim B(n, p)$。

它的機率質量函數是：

$$P(X=k)=\binom{n}{k}\,p^{k}(1-p)^{n-k}$$

其中 $\binom{n}{k}=\frac{n!}{k!(n-k)!}$ 是「從 $n$ 次中挑出哪 $k$ 次成功」的組合數。

帶數字的小範例：公平硬幣 $p=0.5$，丟 $10$ 次，求正好 $6$ 次正面。

$$P(X=6)=\binom{10}{6}(0.5)^{6}(0.5)^{4}=210\times(0.5)^{10}=\frac{210}{1024}\approx 0.205$$

也就是約 $20.5\%$。二項分布的平均數與標準差有簡潔的公式：

$$\mu = np = 10\times 0.5 = 5,\qquad \sigma=\sqrt{np(1-p)}=\sqrt{10\times0.5\times0.5}\approx 1.58$$

平均出現 $5$ 次正面、典型波動約 $1.58$ 次，正好對應我們的直覺。

卜瓦松分布：稀有事件的計數

如果試驗次數 $n$ 非常大、但每次成功機率 $p$ 非常小，逐次去算二項分布會很麻煩。此時更自然的描述是「在一段固定時間或空間內，平均發生 $\lambda$ 次的事件，實際發生幾次」。這就是卜瓦松分布，記為 $X \sim \text{Poisson}(\lambda)$：

$$P(X=k)=\frac{\lambda^{k}e^{-\lambda}}{k!}$$

它的一大特色是平均數與變異數相等，都等於 $\lambda$。常見情境包括：醫院急診室一小時的到院人數、一本書每頁的錯字數、某路口一週的事故件數。

帶數字的小範例：某客服平均每小時接到 $\lambda=3$ 通客訴電話，問「下一小時正好接到 $5$ 通」的機率。

$$P(X=5)=\frac{3^{5}e^{-3}}{5!}=\frac{243\times 0.0498}{120}\approx 0.101$$

約 $10.1\%$。值得注意的是，卜瓦松假設事件彼此獨立且發生率穩定；若客訴會「一窩蜂」群聚出現，這個假設就被破壞，模型也會失準。

常態分布：自然界的鐘形曲線

前兩者數的是「次數」（離散值），但很多量是連續的：身高、體重、測量誤差、考試總分。這些量往往呈現對稱的鐘形分布，也就是常態分布，記為 $X \sim N(\mu, \sigma^2)$，密度函數為：

$$f(x)=\frac{1}{\sigma\sqrt{2\pi}}\exp\!\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$$

常態分布之所以無所不在，深層原因是中央極限定理：許多獨立小因素的加總，無論各自分布為何，總和都會趨近常態。身高受成千上萬個基因與環境因素共同影響，於是呈現鐘形，正是這個道理。

實務上最有用的是「$68$–$95$–$99.7$ 法則」：約 $68\%$ 的資料落在 $\mu\pm\sigma$、$95\%$ 落在 $\mu\pm 2\sigma$、$99.7\%$ 落在 $\mu\pm 3\sigma$。

帶數字的小範例：某次模考成績近似 $N(\mu=60,\ \sigma=10)$，問考超過 $75$ 分的機率。先把分數標準化為 $z$ 分數：

$$z=\frac{x-\mu}{\sigma}=\frac{75-60}{10}=1.5$$

查標準常態表，$P(Z>1.5)\approx 0.067$。也就是大約只有 $6.7\%$ 的學生考超過 $75$ 分。$z$ 分數的妙處在於：它把任何常態分布都換算到同一把尺上，方便彼此比較。

三者的關係與素養提醒

這三個分布並非各自獨立，而是彼此相連：當二項分布的 $n$ 很大、$p$ 很小時，會逼近卜瓦松分布；而當 $n$ 夠大時，二項與卜瓦松又都會逼近常態分布。它們像是同一棵樹上的三根枝幹。

最後提醒幾個容易踩的坑。第一，套用分布前要先檢查假設：二項要求每次試驗獨立且成功率固定，卜瓦松要求事件獨立且發生率穩定，硬套會得出漂亮卻錯誤的數字。第二，「看起來像鐘形」不等於就是常態；收入、城市人口這類資料常右偏（有長尾），用常態硬算會嚴重低估極端值。第三，也是統計素養的核心：分布只描述「在某些假設下會怎樣」，它不會告訴你因果——觀察到兩件事一起變動（相關），絕不代表一個導致了另一個。把分布當成描述世界的語言，而非預言世界的水晶球，才是正確的使用方式。

深入探討（研究所視角）

從測度論的角度，一個隨機變數是從機率空間 $(\Omega,\mathcal{F},\mathbb{P})$ 到 $\mathbb{R}$ 的可測函數，其分布由分布函數 $F(x)=\mathbb{P}(X\le x)$ 唯一決定。三個分布可被統一納入指數族（exponential family），其密度可寫成 $f(x\mid\theta)=h(x)\exp\!\big(\eta(\theta)T(x)-A(\theta)\big)$ 的形式。這個結構並非形式遊戲：它保證了充分統計量 $T(x)$ 的存在（Fisher–Neyman 分解定理），並使最大概似估計具備良好性質。

以最大概似估計（MLE）為例，給定樣本，對數概似 $\ell(\theta)=\sum_i \log f(x_i\mid\theta)$。對常態分布，解 $\partial\ell/\partial\mu=0$ 得 $\hat\mu=\bar x$，是不偏的；但 $\hat\sigma^2=\frac{1}{n}\sum(x_i-\bar x)^2$ 卻是有偏的，期望值為 $\frac{n-1}{n}\sigma^2$。這正是樣本變異數要除以 $n-1$（自由度）的原因——我們用掉一個自由度去估計 $\mu$。所謂自由度，本質是參數空間在估計後殘餘的維度。

估計量的好壞有三個經典判準：不偏性（$\mathbb{E}[\hat\theta]=\theta$）、一致性（$\hat\theta\xrightarrow{P}\theta$，由大數法則保證）、有效性（變異數達到 Cramér–Rao 下界 $1/I(\theta)$，其中 $I(\theta)$ 是 Fisher 訊息量）。在正則條件下，MLE 是漸近常態且漸近有效的：$\sqrt{n}(\hat\theta-\theta)\xrightarrow{d} N\big(0,\,I(\theta)^{-1}\big)$。這也說明了為何常態分布在推論統計裡無所不在——它是大樣本下抽樣分布的極限形態。

貝氏觀點則把參數本身視為隨機變數，藉由 $p(\theta\mid x)\propto p(x\mid\theta)\,p(\theta)$ 更新信念。指數族的美妙之處在於存在共軛先驗：二項配 Beta、卜瓦松配 Gamma、常態（已知變異數）配常態，後驗仍屬同族，計算因此封閉可解。值得強調的是，貝氏的「可信區間」（credible interval）與頻率學派的「信賴區間」意義不同——前者可直接說「參數有 $95\%$ 機率落在此區間」，後者則是指「重複抽樣下，$95\%$ 的區間會涵蓋真值」，對單一區間談機率是常見的誤解。

最後是與機器學習的連結。邏輯斯回歸本質是對伯努利（二項的單次版本）做最大概似；卜瓦松回歸是廣義線性模型（GLM）對計數資料的標準工具；而以高斯（常態）為雜訊假設的最小平方法，等價於在常態概似下做 MLE。效果量（如 Cohen's $d=\frac{\bar x_1-\bar x_2}{s_p}$）則提醒我們：在大樣本時 p 值極易顯著，唯有效果量能回答「差異是否大到值得在意」。從古典推論到現代學習演算法，這幾個分布始終是骨架。

連續分布的統計推論：常態、指數與均勻的機制與估計

--

1

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings