Home
探索 Uedu
學生控制台
註冊會員/登入
研究知情同意中心
教師控制台
課程設定
支援與訊息
Uptime 數據

UeduGPTs

--

Jupyters

2

UG26 CISOSE26
臺北 AQI 26 · 臺中 AQI 19 · 臺南 AQI 18 · 高雄 AQI 17

AI 回覆桌面通知

AI 助教回覆完成時顯示桌面通知

聊天訊息通知

同學在討論區發送訊息時通知

聲音通知

每當有新通知時播放提示音

常見機率分布

連續分布的統計推論:常態、指數與均勻的機制與估計

從機率密度與動差推導,到最大概似、漸近高效與貝氏共軛的統一視角

從機率密度到三個基石分布

連續隨機變數的「點機率」恆為零,真正承載資訊的是機率密度函數(probability density function, PDF)$f(x)$,它必須滿足 $f(x)\ge 0$ 與 $\int_{-\infty}^{\infty} f(x)\,dx = 1$。任一可量測事件的機率由積分給出:$P(a\le X\le b)=\int_a^b f(x)\,dx$。直覺上,密度不是機率,而是「單位長度上的機率質量」;它可以大於 1,只要全域積分收斂到 1 即可。

本文聚焦三個在統計推論中反覆出現的連續分布:均勻分布(最大熵的「無資訊」基準)、指數分布(無記憶性的等待時間模型)、常態分布(中央極限定理的吸引子)。三者看似獨立,實則由變數變換、極限定理與指數族結構緊密相連。我們將從密度出發,推導其動差,並串起它們背後的統一機制。

連續分布:常態、指數與均勻概念示意圖

均勻分布:最大熵與機率積分變換

連續均勻分布 $X\sim \mathrm{Unif}(a,b)$ 的密度為 $f(x)=\frac{1}{b-a}$,$x\in[a,b]$。其期望值與變異數可直接積分:

$$ \mathbb{E}[X]=\int_a^b \frac{x}{b-a}\,dx=\frac{a+b}{2},\qquad \mathrm{Var}(X)=\int_a^b \frac{(x-\frac{a+b}{2})^2}{b-a}\,dx=\frac{(b-a)^2}{12}. $$

均勻分布的理論地位來自兩個結果。其一,在固定支撐 $[a,b]$ 下,均勻分布是最大微分熵分布——它代表「除了範圍以外一無所知」的最保守先驗,這也是貝氏無資訊先驗常以均勻形式出現的根據。其二是機率積分變換:若連續隨機變數 $X$ 的累積分布函數(CDF)為 $F$,則 $U=F(X)\sim\mathrm{Unif}(0,1)$。反向地,若 $U\sim\mathrm{Unif}(0,1)$,則 $F^{-1}(U)$ 服從以 $F$ 為 CDF 的分布。這個逆變換取樣(inverse transform sampling)是模擬任意連續分布的基石,也是 Kolmogorov–Smirnov 檢定與 p 值均勻性的理論來源——在虛無假設成立時,正確計算的 p 值本身服從 $\mathrm{Unif}(0,1)$。

指數分布:無記憶性與最大概似估計

指數分布 $X\sim\mathrm{Exp}(\lambda)$ 的密度為 $f(x)=\lambda e^{-\lambda x}$,$x\ge 0$,其中 $\lambda>0$ 為率參數。CDF 為 $F(x)=1-e^{-\lambda x}$。動差可用分部積分或 Gamma 函數求得:

$$ \mathbb{E}[X]=\int_0^\infty x\lambda e^{-\lambda x}\,dx=\frac{1}{\lambda},\qquad \mathrm{Var}(X)=\frac{1}{\lambda^2}. $$

它最鮮明的性質是無記憶性:$P(X>s+t\mid X>s)=P(X>t)$。證明只需注意 $P(X>x)=e^{-\lambda x}$,於是

$$ P(X>s+t\mid X>s)=\frac{e^{-\lambda(s+t)}}{e^{-\lambda s}}=e^{-\lambda t}=P(X>t). $$

連續分布中,指數分布是唯一具備無記憶性者,這也解釋了為何它是 Poisson 過程的事件間隔分布。

指數分布是單參數指數族,其最大概似估計(MLE)極為簡潔。給定 i.i.d. 樣本 $x_1,\dots,x_n$,對數概似為 $\ell(\lambda)=n\ln\lambda-\lambda\sum_i x_i$,對 $\lambda$ 求導並令其為零:

$$ \frac{d\ell}{d\lambda}=\frac{n}{\lambda}-\sum_i x_i=0 \;\Rightarrow\; \hat{\lambda}_{\mathrm{MLE}}=\frac{n}{\sum_i x_i}=\frac{1}{\bar{x}}. $$

率參數的 MLE 是樣本平均的倒數。值得注意的是,雖然 $\bar X$ 是 $1/\lambda$ 的不偏估計,$1/\bar X$ 卻是 $\lambda$ 的偏誤估計(由 Jensen 不等式,$\mathbb{E}[1/\bar X]>1/\mathbb{E}[\bar X]$),其不偏修正為 $\frac{n-1}{n}\hat\lambda_{\mathrm{MLE}}$——這提醒我們:函數不變性讓 MLE 易得,卻不保證不偏。

常態分布:中央極限定理的吸引子

常態分布 $X\sim\mathcal{N}(\mu,\sigma^2)$ 的密度為

$$ f(x)=\frac{1}{\sqrt{2\pi}\,\sigma}\exp\!\left(-\frac{(x-\mu)^2}{2\sigma^2}\right). $$

歸一化常數 $\frac{1}{\sqrt{2\pi}\sigma}$ 來自著名的 Gauss 積分 $\int_{-\infty}^{\infty}e^{-x^2/2}\,dx=\sqrt{2\pi}$,後者可藉由平方後轉極座標求得。常態之所以無所不在,根源於中央極限定理(CLT):若 $X_1,\dots,X_n$ 為 i.i.d.、期望 $\mu$、有限變異數 $\sigma^2$,則標準化和

$$ Z_n=\frac{\sqrt{n}(\bar X_n-\mu)}{\sigma}\xrightarrow{d}\mathcal{N}(0,1). $$

它同時是固定均值與變異數下的最大熵分布,這賦予「在二階動差約束下最不武斷」的資訊論意義。常態也是指數族成員,其 MLE 為 $\hat\mu=\bar x$、$\hat\sigma^2=\frac1n\sum_i(x_i-\bar x)^2$,其中後者帶 $-\frac1n$ 偏誤,故樣本變異數慣用 $n-1$ 的 Bessel 修正。

定量小範例:客服等待時間

某客服中心的來電間隔時間服從指數分布。觀測 5 筆間隔(分鐘):$2,\;3,\;5,\;1,\;4$,欲估計率參數 $\lambda$ 並求「間隔超過 4 分鐘」的機率。

步驟一,計算樣本平均:$\bar x=\frac{2+3+5+1+4}{5}=\frac{15}{5}=3$。

步驟二,MLE:$\hat\lambda=1/\bar x=1/3\approx 0.333$ 件/分鐘。

步驟三,代入存活函數 $P(X>4)=e^{-\hat\lambda\cdot 4}=e^{-4/3}\approx e^{-1.333}\approx 0.264$。

步驟四,與均勻基準對照:若僅知間隔落在 $[1,5]$ 而採 $\mathrm{Unif}(1,5)$,則 $P(X>4)=\frac{5-4}{5-1}=0.25$,與指數模型 $0.264$ 接近但機制迥異——前者假設完全均勻,後者承認「短間隔較多、長尾衰減」。樣本量僅 5,此估計的標準誤甚大,不應過度詮釋。

深入探討(研究所視角)

三個分布皆屬指數族,可寫成 $f(x\mid\theta)=h(x)\exp\!\big(\eta(\theta)^\top T(x)-A(\theta)\big)$ 的標準形(均勻分布因支撐依參數而變,屬退化情形,違反正則性條件,正是 MLE 漸近理論的著名反例)。指數族的充分統計量 $T(x)$ 與對數配分函數 $A(\theta)$ 提供了統一框架:$A$ 的一階導給出動差、二階導給出變異數,而 $A$ 的凸性保證對數概似的凹性與唯一極值。

估計量的漸近性質是研究所推論的核心。在正則條件下,MLE 滿足一致性與漸近常態性 $\sqrt{n}(\hat\theta-\theta)\xrightarrow{d}\mathcal{N}\!\big(0, I(\theta)^{-1}\big)$,其中 $I(\theta)=-\mathbb{E}[\partial^2\ell/\partial\theta^2]$ 為 Fisher 資訊量。對指數分布,$I(\lambda)=n/\lambda^2$,故 $\hat\lambda$ 的漸近變異數為 $\lambda^2/n$,恰達 Cramér–Rao 下界——MLE 漸近高效。動差法(Method of Moments)則以樣本動差匹配理論動差,對指數分布同樣得到 $\tilde\lambda=1/\bar x$,與 MLE 一致;但對更複雜分布,動差法雖計算簡便,通常不如 MLE 高效,且可能落在參數空間之外。

貝氏對應將參數視為隨機變數。指數分布的率參數 $\lambda$ 以 Gamma 分布為共軛先驗:若 $\lambda\sim\mathrm{Gamma}(\alpha,\beta)$,觀測 $n$ 筆資料後,後驗為 $\mathrm{Gamma}(\alpha+n,\;\beta+\sum_i x_i)$。共軛性源自指數族結構,使後驗更新化為超參數的相加。常態的均值在已知變異數下亦以常態為共軛先驗,後驗均值是先驗均值與樣本均值的精度加權平均——隨樣本增大,資料主導,後驗收斂到 MLE,呼應 Bernstein–von Mises 定理:在正則條件下,後驗分布漸近於以 MLE 為中心、$I(\theta)^{-1}/n$ 為變異數的常態,使貝氏可信區間與頻率學派信賴區間漸近重合。此處須謹記區間詮釋之別:信賴區間的隨機者是區間本身(「重複抽樣下 95% 的區間涵蓋真值」),而非參數落入固定區間的機率。

與機器學習、因果推論的連結亦深。最小平方法在常態誤差假設下等價於 MLE,這是線性迴歸的機率根基;指數族則撐起廣義線性模型(GLM)的全貌,連結函數即由 $\eta(\theta)$ 的形式決定。在生成模型與變分推論中,常態的可重參數化($X=\mu+\sigma\epsilon,\;\epsilon\sim\mathcal N(0,1)$)使梯度得以反向傳播,是變分自編碼器(VAE)的關鍵技巧。指數分布與其推廣(Weibull、Cox 比例風險模型)構成存活分析與因果推論中事件時間(time-to-event)的骨幹。最後須強調統計素養的底線:MLE 漸近高效、CLT 提供常態近似,皆建立在 i.i.d.、有限變異數與模型設定正確等假設之上。重尾資料下 CLT 收斂極慢、變異數無限時甚至失效(如 Cauchy 分布),而模型誤設將使「漸近最優」徒具形式。觀察到的關聯、估出的參數,都只是在假設成立的條件下成立——別把相關當因果,也別把模型擬合度誤認為機制證明。

AI 共讀助教正在陪你讀:連續分布的統計推論:常態、指數與均勻的機制與估計
嗨!我是這篇文章的共讀助教,只根據〈連續分布的統計推論:常態、指數與均勻的機制與估計〉的內容回答。可以問我「解釋某段」「舉個例子」「出題考我」,或反白文中段落後點下方「解釋選取段落」。