邏輯斯迴歸與分類：從對數勝算到最大概似的嚴謹推導

深入 sigmoid 連結、score 方程式、MLE 漸近性質與分類決策，並延伸到貝氏正則化與因果推論

進階 · 約 14 分鐘 ·#邏輯斯迴歸#最大概似估計#對數勝算#分類#廣義線性模型#勝算比

從線性到對數機率：為何分類需要邏輯斯迴歸

當反應變數 $Y$ 只取 $0$ 與 $1$ 兩個值時，若仍套用普通最小平方迴歸 $Y = \beta_0 + \beta_1 x + \varepsilon$，會立刻撞上三道牆：預測值可能落在 $[0,1]$ 之外、誤差項無法滿足同質變異、且條件分配本質上是伯努利而非常態。邏輯斯迴歸（logistic regression）的核心轉折，是不去模型化 $Y$ 本身，而是模型化「給定 $x$ 之下 $Y=1$ 的條件機率」$\pi(x) = P(Y=1 \mid x)$，並透過一個有界的連結函數把線性預測子映射到 $(0,1)$。

我們設定

$$\pi(x) = \frac{1}{1+e^{-(\beta_0 + \beta_1 x)}} = \frac{e^{\beta_0+\beta_1 x}}{1+e^{\beta_0+\beta_1 x}}.$$

這個 S 形（sigmoid）函數保證機率落在合法區間。將其反解，可得到邏輯斯迴歸的靈魂——對數勝算（log-odds, logit）：

$$\operatorname{logit}\bigl(\pi(x)\bigr) = \ln\frac{\pi(x)}{1-\pi(x)} = \beta_0 + \beta_1 x.$$

也就是說，模型對「對數勝算」是線性的。$\beta_1$ 的意義隨之明確：$x$ 每增加一單位，對數勝算改變 $\beta_1$，勝算（odds）則乘以 $e^{\beta_1}$。$e^{\beta_1}$ 正是著名的勝算比（odds ratio），這是邏輯斯迴歸在流行病學與社會科學被廣泛採用的關鍵。

邏輯斯迴歸與分類概念示意圖

最大概似估計：為何不用最小平方

由於 $Y_i \mid x_i \sim \text{Bernoulli}(\pi_i)$，其機率質量函數可寫成緊緻形式 $P(y_i) = \pi_i^{y_i}(1-\pi_i)^{1-y_i}$。假設觀測獨立，概似函數為

$$L(\boldsymbol\beta) = \prod_{i=1}^{n} \pi_i^{y_i}(1-\pi_i)^{1-y_i},$$

取對數得對數概似（log-likelihood）：

$$\ell(\boldsymbol\beta) = \sum_{i=1}^{n}\Bigl[\, y_i \ln \pi_i + (1-y_i)\ln(1-\pi_i)\,\Bigr].$$

代入 $\ln\frac{\pi_i}{1-\pi_i}=\mathbf{x}_i^\top\boldsymbol\beta$ 與 $\ln(1-\pi_i) = -\ln(1+e^{\mathbf{x}_i^\top\boldsymbol\beta})$，可化簡為

$$\ell(\boldsymbol\beta) = \sum_{i=1}^{n}\Bigl[\, y_i\,\mathbf{x}_i^\top\boldsymbol\beta - \ln\bigl(1+e^{\mathbf{x}_i^\top\boldsymbol\beta}\bigr)\Bigr].$$

對 $\boldsymbol\beta$ 求梯度，利用 $\frac{\partial \pi_i}{\partial \boldsymbol\beta}=\pi_i(1-\pi_i)\mathbf{x}_i$，得到優雅的分數方程式（score equation）：

$$\frac{\partial \ell}{\partial \boldsymbol\beta} = \sum_{i=1}^{n}\bigl(y_i - \pi_i\bigr)\mathbf{x}_i = \mathbf{0}.$$

這組方程式對 $\boldsymbol\beta$ 是非線性的，沒有閉合解，必須用數值法迭代求解。實務上以 Newton–Raphson（等價於 iteratively reweighted least squares, IRLS）逼近。其更新式為

$$\boldsymbol\beta^{(t+1)} = \boldsymbol\beta^{(t)} + \bigl(\mathbf{X}^\top \mathbf{W}\mathbf{X}\bigr)^{-1}\mathbf{X}^\top(\mathbf{y}-\boldsymbol\pi),$$

其中 $\mathbf{W}=\operatorname{diag}\bigl(\pi_i(1-\pi_i)\bigr)$。值得一提的是，$\ell(\boldsymbol\beta)$ 是凹函數（其 Hessian $-\mathbf{X}^\top\mathbf{W}\mathbf{X}$ 為負半定），因此只要解存在便是全域最大，這是邏輯斯迴歸數值穩定的理論保證。

定量小範例：手算一步迭代直覺

設只有截距、無解釋變數的最簡模型，觀測為 $n=10$ 名學生是否通過某測驗，其中 $7$ 人通過（$\sum y_i = 7$）。模型 $\operatorname{logit}(\pi)=\beta_0$，則 $\hat\pi$ 為樣本通過比例。

由分數方程式 $\sum (y_i - \pi)=0$，得 $\hat\pi = \bar y = 0.7$。對應的截距估計：

$$\hat\beta_0 = \ln\frac{0.7}{0.3} = \ln(2.333\ldots) \approx 0.847.$$

勝算比 $e^{\hat\beta_0}\approx 2.33$，意即通過的勝算約為不通過的 $2.33$ 倍。再算估計的標準誤：此模型 Fisher 資訊為 $I(\beta_0)=n\,\pi(1-\pi)=10\times0.7\times0.3=2.1$，故

$$\widehat{\operatorname{SE}}(\hat\beta_0) = \frac{1}{\sqrt{I}} = \frac{1}{\sqrt{2.1}}\approx 0.690.$$

$95\%$ Wald 信賴區間為 $0.847 \pm 1.96\times0.690 = (-0.505,\ 2.199)$。注意此區間包含 $0$，代表在此小樣本下無法宣稱通過率顯著異於 $0.5$。將端點轉回機率尺度 $\frac{1}{1+e^{-\cdot}}$，得 $\pi$ 的區間約 $(0.376,\ 0.900)$——這正確示範了：信賴區間要在線性預測子尺度建構、再轉換，而非直接對 $\hat\pi$ 加減，否則可能越界。

從機率到決策：分類的門檻與評估

模型輸出的是機率 $\hat\pi(x)$，要轉成類別預測需設定門檻 $c$：$\hat\pi(x) > c$ 則判為 $1$。預設 $c=0.5$ 對應「貝氏最適決策」僅在誤分類成本對稱、且兩類先驗相等時成立；當類別不平衡或偽陰性代價高昂時，應調整 $c$。

評估分類器不能只看準確率（accuracy），因為在 $95\%$ 為負例的資料上，全猜負例就有 $95\%$ 準確率卻毫無價值。更穩健的工具是 ROC 曲線與其下面積 AUC，它衡量的是「隨機抽一正一負樣本，模型給正樣本較高分」的機率，與門檻無關。搭配精確率（precision）、召回率（recall）與 $F_1$ 才能完整刻畫。統計素養提醒：$\beta_1$ 顯著只代表「在控制其他變數下，$x$ 與對數勝算有統計關聯」，絕不等於 $x$ 「導致」$Y$；觀察性資料中的勝算比仍受混淆變數威脅，相關不蘊含因果。

深入探討（研究所視角）

最大概似估計量的漸近性質是推論的理論基石。在正則條件下，$\hat{\boldsymbol\beta}_{MLE}$ 具有一致性、漸近常態與漸近有效性：

$$\sqrt{n}\,(\hat{\boldsymbol\beta} - \boldsymbol\beta) \xrightarrow{d} \mathcal{N}\bigl(\mathbf{0},\ \mathcal{I}(\boldsymbol\beta)^{-1}\bigr),$$

其中 $\mathcal{I}(\boldsymbol\beta)=\mathbb{E}\bigl[-\partial^2\ell/\partial\boldsymbol\beta\partial\boldsymbol\beta^\top\bigr]=\mathbf{X}^\top\mathbf{W}\mathbf{X}/n$（單位資訊）。其變異數下界達到 Cramér–Rao 界，這正是 Wald 檢定與信賴區間的根據。然而漸近性質在小樣本或完全分離（complete separation）時失效——當某線性組合能完美區分兩類時，MLE 會發散至無窮（$\hat\beta\to\pm\infty$），此時 Firth 的懲罰概似（penalized likelihood，對 Jeffreys 先驗加權）可給出有限估計，是研究所必知的補救法。

除了 Wald 檢定，概似比檢定（LRT）通常更可靠：$-2\ln(L_0/L_1) \xrightarrow{d} \chi^2_q$，在虛無假設下漸近服從卡方分配，對小樣本與分離問題的行為優於 Wald。三大檢定（Wald、LRT、score/Lagrange multiplier）漸近等價，但有限樣本表現不同。

貝氏對應為同一模型提供另一視角。對 $\boldsymbol\beta$ 設先驗 $p(\boldsymbol\beta)$（如弱資訊的 $\mathcal{N}(0,\tau^2)$ 或 Gelman 提倡的 Cauchy 先驗），則後驗 $p(\boldsymbol\beta\mid \mathbf{y})\propto L(\boldsymbol\beta)\,p(\boldsymbol\beta)$ 無共軛閉式，須以 MCMC（如 Hamiltonian Monte Carlo）或變分推論逼近。有趣的是，頻率派的 L2 正則化（ridge logistic）等價於高斯先驗的最大後驗（MAP）估計，L1（lasso）則對應 Laplace 先驗——這座橋樑把懲罰估計與貝氏正則化統一起來，也說明了為何正則化能緩解完全分離。

與機器學習的連結：邏輯斯迴歸的對數概似損失，正是分類中的「交叉熵損失（cross-entropy）」；單層神經網路配 sigmoid 輸出與交叉熵，本質就是邏輯斯迴歸。它也是廣義線性模型（GLM）中以 logit 為典範連結（canonical link）的伯努利成員，可推廣到多類別的 softmax 迴歸。從機率校準角度，邏輯斯迴歸常作為其他分類器分數的事後校準器（Platt scaling）。

因果推論的橋接：勝算比常被誤當成風險比或因果效應。在傾向分數（propensity score）框架中，邏輯斯迴歸用來估計處置機率 $e(x)=P(T=1\mid x)$，再透過配對、加權（IPW）或雙重穩健估計逼近平均處置效應（ATE）。但須警惕——勝算比的不可塌縮性（non-collapsibility）意味著邊際與條件勝算比即使無混淆也可能不等，這與線性模型的可塌縮性截然不同，是高階使用者最易踩的雷。

← 上一篇

多元迴歸與模型診斷：從正規方程式到 BLUE 與假設檢驗

正則化迴歸（Ridge／Lasso）與過擬合

--

1

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings