偽陽性之謎：用貝氏定理重新理解「已知一事」

當新證據出現，你的信念該如何更新？條件機率與貝氏定理的直覺與陷阱

高中｜大學銜接 · 約 9 分鐘 ·#條件機率#貝氏定理#後驗機率#基率謬誤#統計素養

從「已知一事」開始說起

想像你早上看到地板濕濕的。你會問：是不是昨晚下雨了？這就是一個典型的「已知一件事，反推另一件事」的思考。地板濕（已知結果）讓「昨晚下過雨」這件事的可能性升高了。但地板濕也可能是有人打翻水、或灑水器壞了。換句話說，新的資訊會改變我們對某件事的信念，而「條件機率」正是用數學描述這個過程的工具。

我們把「在已知 $B$ 發生的前提下，$A$ 發生的機率」記作 $P(A\mid B)$，讀作「在 $B$ 條件下 $A$ 的機率」。它的定義很直觀：

$$P(A\mid B)=\frac{P(A\cap B)}{P(B)}$$

意思是：在所有「$B$ 發生」的情況裡，有多少比例同時也「$A$ 發生」。分母從整個樣本空間縮小成了「$B$ 的世界」。一旦掌握了這個縮小範圍的視角，後面的貝氏定理就只是它自然的延伸。

條件機率與貝氏定理概念示意圖

貝氏定理：把因果反過來推

很多時候，我們容易算的是「原因 → 結果」的機率，但真正想知道的卻是「結果 → 原因」。例如：醫學上，「真的生病的人驗出陽性」的機率（敏感度）通常由實驗測得，很好掌握；但病人真正關心的是「我驗出陽性，那我真的生病的機率有多高」。這兩者方向相反，而貝氏定理正是把它們連起來的橋樑：

$$P(A\mid B)=\frac{P(B\mid A)\,P(A)}{P(B)}$$

這裡有三個關鍵角色：

$P(A)$ 叫先驗機率（prior）：在看到新證據之前，我們對 $A$ 的信念。
$P(B\mid A)$ 叫概似（likelihood）：若 $A$ 為真，觀察到證據 $B$ 的可能性。
$P(A\mid B)$ 叫後驗機率（posterior）：看到證據後，更新過的信念。

分母 $P(B)$ 是證據 $B$ 出現的總機率，常用全機率公式展開：

$$P(B)=P(B\mid A)P(A)+P(B\mid A^c)P(A^c)$$

其中 $A^c$ 表示「$A$ 不發生」。整句話可以白話翻成：新信念＝（證據的合理性 × 舊信念）÷ 證據出現的總可能性。

偽陽性之謎：一個會嚇到你的數字

現在來算一個經典又反直覺的例子，這也是統計素養的試金石。

假設有一種疾病，盛行率為 $1\%$，也就是 $P(\text{生病})=0.01$。某檢測的敏感度是 $99\%$（真的生病者，$99\%$ 會被驗出陽性），特異度也是 $99\%$（健康者，$99\%$ 會驗出陰性，意即偽陽性率為 $1\%$）。

你去做了檢測，結果是陽性。請問：你真的生病的機率是多少？

很多人直覺會說「大概 $99\%$ 吧」。我們用貝氏定理實際算一次。設 $A=\text{生病}$、$B=\text{驗出陽性}$。

先算各部分：

$P(B\mid A)=0.99$（生病者驗出陽性）
$P(A)=0.01$
$P(B\mid A^c)=0.01$（健康者偽陽性）
$P(A^c)=0.99$

代入全機率公式算分母：

$$P(B)=0.99\times 0.01 + 0.01\times 0.99 = 0.0099 + 0.0099 = 0.0198$$

再代入貝氏定理：

$$P(A\mid B)=\frac{0.99\times 0.01}{0.0198}=\frac{0.0099}{0.0198}=0.5$$

答案竟然只有 $50\%$！明明檢測準確率高達 $99\%$，但驗出陽性後真正生病的機率只有一半。原因在於：疾病本身很罕見（先驗很低），健康人數遠多於病人，因此「健康人裡偶爾的偽陽性」在絕對數量上，竟和「病人裡的真陽性」一樣多。

用 $10000$ 人來想最清楚：其中 $100$ 人生病，會有約 $99$ 人真陽性；另外 $9900$ 健康人，有 $1\%$ 偽陽性，約 $99$ 人。陽性者共 $198$ 人，真生病的只有一半。這就是基率謬誤（base rate fallacy）——忽略先驗機率，會嚴重高估後驗。

從一次更新到連續學習

貝氏定理最迷人的地方在於：後驗可以變成下一次的先驗。若你不放心，再驗第二次又是陽性，就把剛才的 $50\%$ 當作新的先驗代入，後驗會跳升到約 $99\%$。這正是「累積證據、逐步修正信念」的學習過程，也是許多 AI 系統判斷垃圾郵件、診斷輔助背後的核心思想。

不過要提醒：貝氏更新的品質取決於先驗是否合理、各事件是否真的條件獨立。把「相關」當成「因果」、或誤用一個不適當的先驗，都會讓結論失真。條件機率告訴我們「兩件事一起出現」，但它本身不保證誰造成了誰——這一點與整個統計推論的素養是相通的。

深入探討（研究所視角）

從測度論的角度，條件機率 $P(A\mid B)$ 在 $P(B)>0$ 時由初等定義給出，但當條件落在「機率為零的事件」（如連續隨機變數取特定值）時，需用條件期望 $E[\mathbf{1}_A\mid \mathcal{G}]$ 來嚴格定義——它是對某個 sub-$\sigma$-代數 $\mathcal{G}$ 的 Radon–Nikodym 導數，幾乎處處唯一。這避免了著名的 Borel–Kolmogorov 弔詭：在零測度條件下，樸素地「取極限」會因參數化方式不同而給出矛盾的答案。

貝氏框架與頻率學派的根本分歧在於參數的本質。頻率學派視參數 $\theta$ 為未知但固定的常數，估計量如最大概似估計（MLE）$\hat\theta=\arg\max_\theta L(\theta)$ 具有漸近性質：在正則條件下 MLE 是一致（consistent）且漸近有效的，達到 Cramér–Rao 下界 $\mathrm{Var}(\hat\theta)\ge 1/I(\theta)$，其中 $I(\theta)$ 為 Fisher 訊息。貝氏學派則把 $\theta$ 視為隨機變數，賦予先驗分布 $\pi(\theta)$，透過

$$\pi(\theta\mid x)=\frac{f(x\mid\theta)\,\pi(\theta)}{\int f(x\mid\theta)\,\pi(\theta)\,d\theta}$$

得到完整的後驗分布，而非單一點估計。在共軛先驗（conjugate prior）下後驗有封閉解，例如 Beta–Binomial：若先驗為 $\mathrm{Beta}(\alpha,\beta)$、觀察到 $s$ 次成功 $f$ 次失敗，後驗即 $\mathrm{Beta}(\alpha+s,\beta+f)$，使序列更新極為簡潔。

值得強調的是，MLE 可視為均勻先驗下的最大後驗（MAP）估計的特例；而 MAP 加上 Gaussian 先驗，數學上等價於 $L_2$ 正則化（嶺迴歸），Laplace 先驗則對應 $L_1$（LASSO）。這條線索把貝氏推論與現代機器學習的正則化、乃至樸素貝氏分類器、貝氏深度學習的不確定性量化直接連結起來。

兩派對「區間」的詮釋也截然不同：頻率學派的 $95\%$ 信賴區間指的是「重複抽樣下，約 $95\%$ 的區間會涵蓋真值」，並非「真值有 $95\%$ 機率落在此區間」——這是最常見的誤解之一。貝氏的可信區間（credible interval）才真的能說「給定資料，$\theta$ 有 $95\%$ 機率落在區間內」。隨資料量增大，Bernstein–von Mises 定理保證在溫和條件下後驗趨近以 MLE 為中心、變異數約為 $I(\theta)^{-1}/n$ 的常態分布，使兩派的區間在大樣本下漸趨一致。理解這層收斂，才能在實務上恰當地選擇先驗、解讀後驗，並避免把哲學立場誤當成計算技巧。

貝氏更新：先驗、概似與後驗的嚴謹推導

--

1

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings