連續分布的統計推論：常態、指數與均勻的機制與估計

從機率密度與動差推導，到最大概似、漸近高效與貝氏共軛的統一視角

進階 · 約 12 分鐘 ·#連續分布#常態分布#指數分布#最大概似估計#指數族#中央極限定理

從機率密度到三個基石分布

連續隨機變數的「點機率」恆為零，真正承載資訊的是機率密度函數（probability density function, PDF）$f(x)$，它必須滿足 $f(x)\ge 0$ 與 $\int_{-\infty}^{\infty} f(x)\,dx = 1$。任一可量測事件的機率由積分給出：$P(a\le X\le b)=\int_a^b f(x)\,dx$。直覺上，密度不是機率，而是「單位長度上的機率質量」；它可以大於 1，只要全域積分收斂到 1 即可。

本文聚焦三個在統計推論中反覆出現的連續分布：均勻分布（最大熵的「無資訊」基準）、指數分布（無記憶性的等待時間模型）、常態分布（中央極限定理的吸引子）。三者看似獨立，實則由變數變換、極限定理與指數族結構緊密相連。我們將從密度出發，推導其動差，並串起它們背後的統一機制。

連續分布：常態、指數與均勻概念示意圖

均勻分布：最大熵與機率積分變換

連續均勻分布 $X\sim \mathrm{Unif}(a,b)$ 的密度為 $f(x)=\frac{1}{b-a}$，$x\in[a,b]$。其期望值與變異數可直接積分：

$$ \mathbb{E}[X]=\int_a^b \frac{x}{b-a}\,dx=\frac{a+b}{2},\qquad \mathrm{Var}(X)=\int_a^b \frac{(x-\frac{a+b}{2})^2}{b-a}\,dx=\frac{(b-a)^2}{12}. $$

均勻分布的理論地位來自兩個結果。其一，在固定支撐 $[a,b]$ 下，均勻分布是最大微分熵分布——它代表「除了範圍以外一無所知」的最保守先驗，這也是貝氏無資訊先驗常以均勻形式出現的根據。其二是機率積分變換：若連續隨機變數 $X$ 的累積分布函數（CDF）為 $F$，則 $U=F(X)\sim\mathrm{Unif}(0,1)$。反向地，若 $U\sim\mathrm{Unif}(0,1)$，則 $F^{-1}(U)$ 服從以 $F$ 為 CDF 的分布。這個逆變換取樣（inverse transform sampling）是模擬任意連續分布的基石，也是 Kolmogorov–Smirnov 檢定與 p 值均勻性的理論來源——在虛無假設成立時，正確計算的 p 值本身服從 $\mathrm{Unif}(0,1)$。

指數分布：無記憶性與最大概似估計

指數分布 $X\sim\mathrm{Exp}(\lambda)$ 的密度為 $f(x)=\lambda e^{-\lambda x}$，$x\ge 0$，其中 $\lambda>0$ 為率參數。CDF 為 $F(x)=1-e^{-\lambda x}$。動差可用分部積分或 Gamma 函數求得：

$$ \mathbb{E}[X]=\int_0^\infty x\lambda e^{-\lambda x}\,dx=\frac{1}{\lambda},\qquad \mathrm{Var}(X)=\frac{1}{\lambda^2}. $$

它最鮮明的性質是無記憶性：$P(X>s+t\mid X>s)=P(X>t)$。證明只需注意 $P(X>x)=e^{-\lambda x}$，於是

$$ P(X>s+t\mid X>s)=\frac{e^{-\lambda(s+t)}}{e^{-\lambda s}}=e^{-\lambda t}=P(X>t). $$

連續分布中，指數分布是唯一具備無記憶性者，這也解釋了為何它是 Poisson 過程的事件間隔分布。

指數分布是單參數指數族，其最大概似估計（MLE）極為簡潔。給定 i.i.d. 樣本 $x_1,\dots,x_n$，對數概似為 $\ell(\lambda)=n\ln\lambda-\lambda\sum_i x_i$，對 $\lambda$ 求導並令其為零：

$$ \frac{d\ell}{d\lambda}=\frac{n}{\lambda}-\sum_i x_i=0 \;\Rightarrow\; \hat{\lambda}_{\mathrm{MLE}}=\frac{n}{\sum_i x_i}=\frac{1}{\bar{x}}. $$

率參數的 MLE 是樣本平均的倒數。值得注意的是，雖然 $\bar X$ 是 $1/\lambda$ 的不偏估計，$1/\bar X$ 卻是 $\lambda$ 的偏誤估計（由 Jensen 不等式，$\mathbb{E}[1/\bar X]>1/\mathbb{E}[\bar X]$），其不偏修正為 $\frac{n-1}{n}\hat\lambda_{\mathrm{MLE}}$——這提醒我們：函數不變性讓 MLE 易得，卻不保證不偏。

常態分布：中央極限定理的吸引子

常態分布 $X\sim\mathcal{N}(\mu,\sigma^2)$ 的密度為

$$ f(x)=\frac{1}{\sqrt{2\pi}\,\sigma}\exp\!\left(-\frac{(x-\mu)^2}{2\sigma^2}\right). $$

歸一化常數 $\frac{1}{\sqrt{2\pi}\sigma}$ 來自著名的 Gauss 積分 $\int_{-\infty}^{\infty}e^{-x^2/2}\,dx=\sqrt{2\pi}$，後者可藉由平方後轉極座標求得。常態之所以無所不在，根源於中央極限定理（CLT）：若 $X_1,\dots,X_n$ 為 i.i.d.、期望 $\mu$、有限變異數 $\sigma^2$，則標準化和

$$ Z_n=\frac{\sqrt{n}(\bar X_n-\mu)}{\sigma}\xrightarrow{d}\mathcal{N}(0,1). $$

它同時是固定均值與變異數下的最大熵分布，這賦予「在二階動差約束下最不武斷」的資訊論意義。常態也是指數族成員，其 MLE 為 $\hat\mu=\bar x$、$\hat\sigma^2=\frac1n\sum_i(x_i-\bar x)^2$，其中後者帶 $-\frac1n$ 偏誤，故樣本變異數慣用 $n-1$ 的 Bessel 修正。

定量小範例：客服等待時間

某客服中心的來電間隔時間服從指數分布。觀測 5 筆間隔（分鐘）：$2,\;3,\;5,\;1,\;4$，欲估計率參數 $\lambda$ 並求「間隔超過 4 分鐘」的機率。

步驟一，計算樣本平均：$\bar x=\frac{2+3+5+1+4}{5}=\frac{15}{5}=3$。

步驟二，MLE：$\hat\lambda=1/\bar x=1/3\approx 0.333$ 件/分鐘。

步驟三，代入存活函數 $P(X>4)=e^{-\hat\lambda\cdot 4}=e^{-4/3}\approx e^{-1.333}\approx 0.264$。

步驟四，與均勻基準對照：若僅知間隔落在 $[1,5]$ 而採 $\mathrm{Unif}(1,5)$，則 $P(X>4)=\frac{5-4}{5-1}=0.25$，與指數模型 $0.264$ 接近但機制迥異——前者假設完全均勻，後者承認「短間隔較多、長尾衰減」。樣本量僅 5，此估計的標準誤甚大，不應過度詮釋。

深入探討（研究所視角）

三個分布皆屬指數族，可寫成 $f(x\mid\theta)=h(x)\exp\!\big(\eta(\theta)^\top T(x)-A(\theta)\big)$ 的標準形（均勻分布因支撐依參數而變，屬退化情形，違反正則性條件，正是 MLE 漸近理論的著名反例）。指數族的充分統計量 $T(x)$ 與對數配分函數 $A(\theta)$ 提供了統一框架：$A$ 的一階導給出動差、二階導給出變異數，而 $A$ 的凸性保證對數概似的凹性與唯一極值。

估計量的漸近性質是研究所推論的核心。在正則條件下，MLE 滿足一致性與漸近常態性 $\sqrt{n}(\hat\theta-\theta)\xrightarrow{d}\mathcal{N}\!\big(0, I(\theta)^{-1}\big)$，其中 $I(\theta)=-\mathbb{E}[\partial^2\ell/\partial\theta^2]$ 為 Fisher 資訊量。對指數分布，$I(\lambda)=n/\lambda^2$，故 $\hat\lambda$ 的漸近變異數為 $\lambda^2/n$，恰達 Cramér–Rao 下界——MLE 漸近高效。動差法（Method of Moments）則以樣本動差匹配理論動差，對指數分布同樣得到 $\tilde\lambda=1/\bar x$，與 MLE 一致；但對更複雜分布，動差法雖計算簡便，通常不如 MLE 高效，且可能落在參數空間之外。

貝氏對應將參數視為隨機變數。指數分布的率參數 $\lambda$ 以 Gamma 分布為共軛先驗：若 $\lambda\sim\mathrm{Gamma}(\alpha,\beta)$，觀測 $n$ 筆資料後，後驗為 $\mathrm{Gamma}(\alpha+n,\;\beta+\sum_i x_i)$。共軛性源自指數族結構，使後驗更新化為超參數的相加。常態的均值在已知變異數下亦以常態為共軛先驗，後驗均值是先驗均值與樣本均值的精度加權平均——隨樣本增大，資料主導，後驗收斂到 MLE，呼應 Bernstein–von Mises 定理：在正則條件下，後驗分布漸近於以 MLE 為中心、$I(\theta)^{-1}/n$ 為變異數的常態，使貝氏可信區間與頻率學派信賴區間漸近重合。此處須謹記區間詮釋之別：信賴區間的隨機者是區間本身（「重複抽樣下 95% 的區間涵蓋真值」），而非參數落入固定區間的機率。

與機器學習、因果推論的連結亦深。最小平方法在常態誤差假設下等價於 MLE，這是線性迴歸的機率根基；指數族則撐起廣義線性模型（GLM）的全貌，連結函數即由 $\eta(\theta)$ 的形式決定。在生成模型與變分推論中，常態的可重參數化（$X=\mu+\sigma\epsilon,\;\epsilon\sim\mathcal N(0,1)$）使梯度得以反向傳播，是變分自編碼器（VAE）的關鍵技巧。指數分布與其推廣（Weibull、Cox 比例風險模型）構成存活分析與因果推論中事件時間（time-to-event）的骨幹。最後須強調統計素養的底線：MLE 漸近高效、CLT 提供常態近似，皆建立在 i.i.d.、有限變異數與模型設定正確等假設之上。重尾資料下 CLT 收斂極慢、變異數無限時甚至失效（如 Cauchy 分布），而模型誤設將使「漸近最優」徒具形式。觀察到的關聯、估出的參數，都只是在假設成立的條件下成立——別把相關當因果，也別把模型擬合度誤認為機制證明。

← 上一篇

少數幾個分布，描述大半個世界：二項、卜瓦松與常態

卡方、t 與 F 分布：常態抽樣理論的三根枝幹

--

1

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings