Home
探索 Uedu
學生控制台
註冊會員/登入
研究知情同意中心
教師控制台
課程設定
支援與訊息
Uptime 數據

UeduGPTs

--

Jupyters

2

UG26 CISOSE26
臺北 AQI 26 · 臺中 AQI 19 · 臺南 AQI 18 · 高雄 AQI 17

AI 回覆桌面通知

AI 助教回覆完成時顯示桌面通知

聊天訊息通知

同學在討論區發送訊息時通知

聲音通知

每當有新通知時播放提示音

估計與信賴區間

最大概似估計與估計量性質:從概似方程到漸近理論

理解 MLE 的推導機制、不偏性與變異數、Fisher 資訊與 Cramér–Rao 下界,並串連貝氏與機器學習

從「最可能產生這筆資料的參數」談起

當你手上有一組觀測資料,卻不知道背後的母體參數時,一個非常自然的直覺是:「哪一組參數值,最有可能生出我眼前看到的這筆資料?」這個直覺正是最大概似估計(Maximum Likelihood Estimation, MLE)的核心。它由 R. A. Fisher 在 1920 年代系統化,至今仍是統計推論的主梁,並深刻連結到現代機器學習的損失函數設計。

形式上,設資料 $x_1, \dots, x_n$ 為來自機率密度(或質量)函數 $f(x \mid \theta)$ 的獨立同分布(i.i.d.)樣本,其中 $\theta$ 為未知參數。概似函數定義為把資料當已知、把參數當變數的聯合密度:

$$ L(\theta) = \prod_{i=1}^{n} f(x_i \mid \theta). $$

注意概似函數不是 $\theta$ 的機率分布——它對 $\theta$ 的積分通常不為 1。MLE 即是讓 $L(\theta)$ 達到最大的 $\hat\theta$。由於連乘不便微分,實務上取對數,定義對數概似 $\ell(\theta) = \log L(\theta) = \sum_{i=1}^{n} \log f(x_i \mid \theta)$。因對數是嚴格遞增函數,最大化 $\ell$ 與最大化 $L$ 等價。

最大概似估計與估計量性質概念示意圖

概似方程與一個常態的推導

在多數正則(regular)情形下,MLE 可由解概似方程(score equation)得到:

$$ \frac{\partial \ell(\theta)}{\partial \theta} = 0, $$

並驗證二階條件為極大。我們以單變量常態 $N(\mu, \sigma^2)$ 為例,同時估計 $\mu$ 與 $\sigma^2$。對數概似為

$$ \ell(\mu, \sigma^2) = -\frac{n}{2}\log(2\pi) - \frac{n}{2}\log \sigma^2 - \frac{1}{2\sigma^2}\sum_{i=1}^{n}(x_i - \mu)^2. $$

對 $\mu$ 偏微分並令其為零:

$$ \frac{\partial \ell}{\partial \mu} = \frac{1}{\sigma^2}\sum_{i=1}^{n}(x_i - \mu) = 0 \;\Rightarrow\; \hat\mu = \bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i. $$

再對 $\sigma^2$ 偏微分:

$$ \frac{\partial \ell}{\partial \sigma^2} = -\frac{n}{2\sigma^2} + \frac{1}{2\sigma^4}\sum_{i=1}^{n}(x_i - \mu)^2 = 0 \;\Rightarrow\; \hat\sigma^2 = \frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2. $$

這裡出現一個關鍵警訊:$\hat\sigma^2$ 的分母是 $n$ 而非 $n-1$。可以證明 $E[\hat\sigma^2] = \frac{n-1}{n}\sigma^2 \neq \sigma^2$,MLE 對變異數是有偏的(偏低)。這提醒我們:MLE 不保證不偏,它換來的是其他更強大的漸近性質。

估計量的有限樣本性質

評估一個估計量 $\hat\theta$ 好不好,常看三件事。

不偏性(unbiasedness):若 $E[\hat\theta] = \theta$ 對所有 $\theta$ 成立,則稱不偏。上例中 $\hat\mu$ 不偏,但 $\hat\sigma^2$ 有偏。

變異數與均方誤差:均方誤差可分解為

$$ \mathrm{MSE}(\hat\theta) = E[(\hat\theta - \theta)^2] = \mathrm{Var}(\hat\theta) + \big(\mathrm{Bias}(\hat\theta)\big)^2. $$

這個偏差—變異權衡(bias–variance tradeoff)說明:一個略有偏差但變異更小的估計量,整體誤差可能更低。

Cramér–Rao 下界:對任一不偏估計量,其變異數有一個由資料本身決定的下界

$$ \mathrm{Var}(\hat\theta) \;\geq\; \frac{1}{I(\theta)}, \qquad I(\theta) = E\!\left[\left(\frac{\partial}{\partial\theta}\log f(X\mid\theta)\right)^2\right], $$

其中 $I(\theta)$ 稱為 Fisher 資訊。達到此下界的不偏估計量稱為有效估計量(efficient)。Fisher 資訊衡量資料對 $\theta$ 攜帶的「資訊量」:資訊越多,估計可以越精準。

一個定量小範例

假設我們觀測指數分布 $f(x\mid\lambda) = \lambda e^{-\lambda x}$($x>0$)的樣本,欲估計率參數 $\lambda$。對數概似為

$$ \ell(\lambda) = n\log\lambda - \lambda \sum_{i=1}^{n} x_i. $$

求導並令為零:

$$ \frac{\partial \ell}{\partial \lambda} = \frac{n}{\lambda} - \sum_{i=1}^{n} x_i = 0 \;\Rightarrow\; \hat\lambda = \frac{n}{\sum_{i=1}^{n} x_i} = \frac{1}{\bar{x}}. $$

具體代入數字:設 $n = 5$,觀測到等候時間 $x = \{2,\,4,\,3,\,5,\,6\}$(單位:分鐘)。則 $\sum x_i = 20$,$\bar{x} = 4$,故

$$ \hat\lambda = \frac{5}{20} = 0.25 \text{(每分鐘 0.25 次)}. $$

再算 Fisher 資訊以估計精度。單一觀測的 $\log f = \log\lambda - \lambda x$,二階導為 $-1/\lambda^2$,故 $I_1(\lambda) = 1/\lambda^2$,全樣本 $I(\lambda) = n/\lambda^2$。代入得 $I(\hat\lambda) = 5/0.25^2 = 80$,因此 $\hat\lambda$ 的近似標準誤為

$$ \mathrm{SE}(\hat\lambda) \approx \frac{1}{\sqrt{I(\hat\lambda)}} = \frac{1}{\sqrt{80}} \approx 0.112. $$

由此可構造 $\lambda$ 的約 95% 漸近信賴區間 $0.25 \pm 1.96 \times 0.112 \approx (0.031,\ 0.469)$。請務必正確解讀:此區間是指「若重複抽樣多次,約 95% 的這類區間會涵蓋真值 $\lambda$」,並非「$\lambda$ 有 95% 機率落在此特定區間內」——在頻率學派框架下 $\lambda$ 是固定常數,沒有機率可言。

統計素養提醒

MLE 強大,但有三個常見誤用。其一,概似不是後驗機率:$L(\theta)$ 高不代表 $\theta$ 的機率高,除非引入先驗(見下節貝氏對應)。其二,模型設定錯誤則 MLE 失準:MLE 的良好性質建立在「模型正確」的前提上,若 $f(x\mid\theta)$ 本身錯了,估出的參數只是「最接近錯誤模型」的值。其三,別把估計的精準當成因果:標準誤小只代表抽樣變異小,與「$X$ 是否導致 $Y$」無關;相關性再顯著也不能跳到因果結論。

深入探討(研究所視角)

MLE 真正的威力在其漸近理論。在正則條件下(參數空間為開集、真值非邊界、可微分、Fisher 資訊有限且非奇異),MLE 具有三項漸近性質:(1)一致性,$\hat\theta_n \xrightarrow{p} \theta_0$;(2)漸近常態性

$$ \sqrt{n}(\hat\theta_n - \theta_0) \xrightarrow{d} N\!\big(0,\ I_1(\theta_0)^{-1}\big); $$

(3)漸近有效性,其漸近變異數達到 Cramér–Rao 下界,意即在所有一致漸近常態估計量中變異最小。證明核心是對 score 函數做泰勒展開,並運用大數法則與中央極限定理。這也解釋了為何有偏的 $\hat\sigma^2$(分母 $n$)在大樣本下仍可接受:其偏差以 $O(1/n)$ 速率消失。

與 MLE 並列的另一條路是動差法(Method of Moments, MoM):令樣本動差等於理論動差解方程。MoM 計算簡單、不需數值最佳化,常用作 MLE 迭代(如 Newton–Raphson、Fisher scoring 或 EM 演算法)的起始值;但 MoM 通常不具漸近有效性,變異數大於 MLE。當概似函數無封閉解或含潛在變數(latent variable)時,EM 演算法透過反覆的 E 步(計算期望對數概似)與 M 步(最大化)逼近 MLE,是混合模型、隱馬可夫模型的標準工具。

貝氏對應值得深思。貝氏推論透過 $p(\theta\mid x) \propto L(\theta)\,p(\theta)$ 把概似與先驗 $p(\theta)$ 結合成後驗。當先驗取均勻分布時,最大後驗估計(MAP)退化為 MLE;當樣本量趨大、概似主導先驗時,後驗也會集中於 MLE 附近並趨近常態(Bernstein–von Mises 定理)。因此 MLE 可視為「無資訊先驗下的點估計」,這座橋讓頻率與貝氏兩派在大樣本下殊途同歸。

最後是與機器學習與因果推論的連結。許多監督式學習的損失函數其實就是負對數概似:高斯雜訊假設下的最小平方法等價於 MLE,邏輯斯回歸的交叉熵損失就是伯努利概似的負對數,而 L2 正則化對應於對權重施加高斯先驗的 MAP。在因果推論中,傾向分數模型、結構方程與許多識別策略也依賴概似框架做估計;但要強調的是,估計的統計效率與因果識別是兩回事——再有效的 MLE,若缺乏可識別性假設(如無未測量混淆、正向性),所估的參數仍不具因果意義。理解這條界線,是從「會算」邁向「會用」的關鍵。

AI 共讀助教正在陪你讀:最大概似估計與估計量性質:從概似方程到漸近理論
嗨!我是這篇文章的共讀助教,只根據〈最大概似估計與估計量性質:從概似方程到漸近理論〉的內容回答。可以問我「解釋某段」「舉個例子」「出題考我」,或反白文中段落後點下方「解釋選取段落」。