最大概似估計與估計量性質：從概似方程到漸近理論

理解 MLE 的推導機制、不偏性與變異數、Fisher 資訊與 Cramér–Rao 下界，並串連貝氏與機器學習

進階 · 約 12 分鐘 ·#最大概似估計#估計量性質#Fisher 資訊#Cramér-Rao 下界#漸近常態性#統計推論

從「最可能產生這筆資料的參數」談起

當你手上有一組觀測資料，卻不知道背後的母體參數時，一個非常自然的直覺是：「哪一組參數值，最有可能生出我眼前看到的這筆資料？」這個直覺正是最大概似估計（Maximum Likelihood Estimation, MLE）的核心。它由 R. A. Fisher 在 1920 年代系統化，至今仍是統計推論的主梁，並深刻連結到現代機器學習的損失函數設計。

形式上，設資料 $x_1, \dots, x_n$ 為來自機率密度（或質量）函數 $f(x \mid \theta)$ 的獨立同分布（i.i.d.）樣本，其中 $\theta$ 為未知參數。概似函數定義為把資料當已知、把參數當變數的聯合密度：

$$ L(\theta) = \prod_{i=1}^{n} f(x_i \mid \theta). $$

注意概似函數不是 $\theta$ 的機率分布——它對 $\theta$ 的積分通常不為 1。MLE 即是讓 $L(\theta)$ 達到最大的 $\hat\theta$。由於連乘不便微分，實務上取對數，定義對數概似 $\ell(\theta) = \log L(\theta) = \sum_{i=1}^{n} \log f(x_i \mid \theta)$。因對數是嚴格遞增函數，最大化 $\ell$ 與最大化 $L$ 等價。

最大概似估計與估計量性質概念示意圖

概似方程與一個常態的推導

在多數正則（regular）情形下，MLE 可由解概似方程（score equation）得到：

$$ \frac{\partial \ell(\theta)}{\partial \theta} = 0, $$

並驗證二階條件為極大。我們以單變量常態 $N(\mu, \sigma^2)$ 為例，同時估計 $\mu$ 與 $\sigma^2$。對數概似為

$$ \ell(\mu, \sigma^2) = -\frac{n}{2}\log(2\pi) - \frac{n}{2}\log \sigma^2 - \frac{1}{2\sigma^2}\sum_{i=1}^{n}(x_i - \mu)^2. $$

對 $\mu$ 偏微分並令其為零：

$$ \frac{\partial \ell}{\partial \mu} = \frac{1}{\sigma^2}\sum_{i=1}^{n}(x_i - \mu) = 0 \;\Rightarrow\; \hat\mu = \bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i. $$

再對 $\sigma^2$ 偏微分：

$$ \frac{\partial \ell}{\partial \sigma^2} = -\frac{n}{2\sigma^2} + \frac{1}{2\sigma^4}\sum_{i=1}^{n}(x_i - \mu)^2 = 0 \;\Rightarrow\; \hat\sigma^2 = \frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2. $$

這裡出現一個關鍵警訊：$\hat\sigma^2$ 的分母是 $n$ 而非 $n-1$。可以證明 $E[\hat\sigma^2] = \frac{n-1}{n}\sigma^2 \neq \sigma^2$，MLE 對變異數是有偏的（偏低）。這提醒我們：MLE 不保證不偏，它換來的是其他更強大的漸近性質。

估計量的有限樣本性質

評估一個估計量 $\hat\theta$ 好不好，常看三件事。

不偏性（unbiasedness）：若 $E[\hat\theta] = \theta$ 對所有 $\theta$ 成立，則稱不偏。上例中 $\hat\mu$ 不偏，但 $\hat\sigma^2$ 有偏。

變異數與均方誤差：均方誤差可分解為

$$ \mathrm{MSE}(\hat\theta) = E[(\hat\theta - \theta)^2] = \mathrm{Var}(\hat\theta) + \big(\mathrm{Bias}(\hat\theta)\big)^2. $$

這個偏差—變異權衡（bias–variance tradeoff）說明：一個略有偏差但變異更小的估計量，整體誤差可能更低。

Cramér–Rao 下界：對任一不偏估計量，其變異數有一個由資料本身決定的下界

$$ \mathrm{Var}(\hat\theta) \;\geq\; \frac{1}{I(\theta)}, \qquad I(\theta) = E\!\left[\left(\frac{\partial}{\partial\theta}\log f(X\mid\theta)\right)^2\right], $$

其中 $I(\theta)$ 稱為 Fisher 資訊。達到此下界的不偏估計量稱為有效估計量（efficient）。Fisher 資訊衡量資料對 $\theta$ 攜帶的「資訊量」：資訊越多，估計可以越精準。

一個定量小範例

假設我們觀測指數分布 $f(x\mid\lambda) = \lambda e^{-\lambda x}$（$x>0$）的樣本，欲估計率參數 $\lambda$。對數概似為

$$ \ell(\lambda) = n\log\lambda - \lambda \sum_{i=1}^{n} x_i. $$

求導並令為零：

$$ \frac{\partial \ell}{\partial \lambda} = \frac{n}{\lambda} - \sum_{i=1}^{n} x_i = 0 \;\Rightarrow\; \hat\lambda = \frac{n}{\sum_{i=1}^{n} x_i} = \frac{1}{\bar{x}}. $$

具體代入數字：設 $n = 5$，觀測到等候時間 $x = \{2,\,4,\,3,\,5,\,6\}$（單位：分鐘）。則 $\sum x_i = 20$，$\bar{x} = 4$，故

$$ \hat\lambda = \frac{5}{20} = 0.25 \text{（每分鐘 0.25 次）}. $$

再算 Fisher 資訊以估計精度。單一觀測的 $\log f = \log\lambda - \lambda x$，二階導為 $-1/\lambda^2$，故 $I_1(\lambda) = 1/\lambda^2$，全樣本 $I(\lambda) = n/\lambda^2$。代入得 $I(\hat\lambda) = 5/0.25^2 = 80$，因此 $\hat\lambda$ 的近似標準誤為

$$ \mathrm{SE}(\hat\lambda) \approx \frac{1}{\sqrt{I(\hat\lambda)}} = \frac{1}{\sqrt{80}} \approx 0.112. $$

由此可構造 $\lambda$ 的約 95% 漸近信賴區間 $0.25 \pm 1.96 \times 0.112 \approx (0.031,\ 0.469)$。請務必正確解讀：此區間是指「若重複抽樣多次，約 95% 的這類區間會涵蓋真值 $\lambda$」，並非「$\lambda$ 有 95% 機率落在此特定區間內」——在頻率學派框架下 $\lambda$ 是固定常數，沒有機率可言。

統計素養提醒

MLE 強大，但有三個常見誤用。其一，概似不是後驗機率：$L(\theta)$ 高不代表 $\theta$ 的機率高，除非引入先驗（見下節貝氏對應）。其二，模型設定錯誤則 MLE 失準：MLE 的良好性質建立在「模型正確」的前提上，若 $f(x\mid\theta)$ 本身錯了，估出的參數只是「最接近錯誤模型」的值。其三，別把估計的精準當成因果：標準誤小只代表抽樣變異小，與「$X$ 是否導致 $Y$」無關；相關性再顯著也不能跳到因果結論。

深入探討（研究所視角）

MLE 真正的威力在其漸近理論。在正則條件下（參數空間為開集、真值非邊界、可微分、Fisher 資訊有限且非奇異），MLE 具有三項漸近性質：（1）一致性，$\hat\theta_n \xrightarrow{p} \theta_0$；（2）漸近常態性，

$$ \sqrt{n}(\hat\theta_n - \theta_0) \xrightarrow{d} N\!\big(0,\ I_1(\theta_0)^{-1}\big); $$

（3）漸近有效性，其漸近變異數達到 Cramér–Rao 下界，意即在所有一致漸近常態估計量中變異最小。證明核心是對 score 函數做泰勒展開，並運用大數法則與中央極限定理。這也解釋了為何有偏的 $\hat\sigma^2$（分母 $n$）在大樣本下仍可接受：其偏差以 $O(1/n)$ 速率消失。

與 MLE 並列的另一條路是動差法（Method of Moments, MoM）：令樣本動差等於理論動差解方程。MoM 計算簡單、不需數值最佳化，常用作 MLE 迭代（如 Newton–Raphson、Fisher scoring 或 EM 演算法）的起始值；但 MoM 通常不具漸近有效性，變異數大於 MLE。當概似函數無封閉解或含潛在變數（latent variable）時，EM 演算法透過反覆的 E 步（計算期望對數概似）與 M 步（最大化）逼近 MLE，是混合模型、隱馬可夫模型的標準工具。

貝氏對應值得深思。貝氏推論透過 $p(\theta\mid x) \propto L(\theta)\,p(\theta)$ 把概似與先驗 $p(\theta)$ 結合成後驗。當先驗取均勻分布時，最大後驗估計（MAP）退化為 MLE；當樣本量趨大、概似主導先驗時，後驗也會集中於 MLE 附近並趨近常態（Bernstein–von Mises 定理）。因此 MLE 可視為「無資訊先驗下的點估計」，這座橋讓頻率與貝氏兩派在大樣本下殊途同歸。

最後是與機器學習與因果推論的連結。許多監督式學習的損失函數其實就是負對數概似：高斯雜訊假設下的最小平方法等價於 MLE，邏輯斯回歸的交叉熵損失就是伯努利概似的負對數，而 L2 正則化對應於對權重施加高斯先驗的 MAP。在因果推論中，傾向分數模型、結構方程與許多識別策略也依賴概似框架做估計；但要強調的是，估計的統計效率與因果識別是兩回事——再有效的 MLE，若缺乏可識別性假設（如無未測量混淆、正向性），所估的參數仍不具因果意義。理解這條界線，是從「會算」邁向「會用」的關鍵。

← 上一篇

95% 信賴區間到底在說什麼？從點估計到區間估計

自助法與重抽樣：用樣本模擬母體的推論引擎

--

1

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings