Home
探索 Uedu
學生控制台
註冊會員/登入
研究知情同意中心
教師控制台
課程設定
支援與訊息
Uptime 數據

UeduGPTs

--

Jupyters

2

UG26 CISOSE26
臺北 AQI 26 · 臺中 AQI 19 · 臺南 AQI 18 · 高雄 AQI 17

AI 回覆桌面通知

AI 助教回覆完成時顯示桌面通知

聊天訊息通知

同學在討論區發送訊息時通知

聲音通知

每當有新通知時播放提示音

條件機率與貝氏定理

偽陽性之謎:用貝氏定理重新理解「已知一事」

當新證據出現,你的信念該如何更新?條件機率與貝氏定理的直覺與陷阱

從「已知一事」開始說起

想像你早上看到地板濕濕的。你會問:是不是昨晚下雨了?這就是一個典型的「已知一件事,反推另一件事」的思考。地板濕(已知結果)讓「昨晚下過雨」這件事的可能性升高了。但地板濕也可能是有人打翻水、或灑水器壞了。換句話說,新的資訊會改變我們對某件事的信念,而「條件機率」正是用數學描述這個過程的工具。

我們把「在已知 $B$ 發生的前提下,$A$ 發生的機率」記作 $P(A\mid B)$,讀作「在 $B$ 條件下 $A$ 的機率」。它的定義很直觀:

$$P(A\mid B)=\frac{P(A\cap B)}{P(B)}$$

意思是:在所有「$B$ 發生」的情況裡,有多少比例同時也「$A$ 發生」。分母從整個樣本空間縮小成了「$B$ 的世界」。一旦掌握了這個縮小範圍的視角,後面的貝氏定理就只是它自然的延伸。

條件機率與貝氏定理概念示意圖

貝氏定理:把因果反過來推

很多時候,我們容易算的是「原因 → 結果」的機率,但真正想知道的卻是「結果 → 原因」。例如:醫學上,「真的生病的人驗出陽性」的機率(敏感度)通常由實驗測得,很好掌握;但病人真正關心的是「我驗出陽性,那我真的生病的機率有多高」。這兩者方向相反,而貝氏定理正是把它們連起來的橋樑:

$$P(A\mid B)=\frac{P(B\mid A)\,P(A)}{P(B)}$$

這裡有三個關鍵角色:

  • $P(A)$ 叫先驗機率(prior):在看到新證據之前,我們對 $A$ 的信念。
  • $P(B\mid A)$ 叫概似(likelihood):若 $A$ 為真,觀察到證據 $B$ 的可能性。
  • $P(A\mid B)$ 叫後驗機率(posterior):看到證據後,更新過的信念。

分母 $P(B)$ 是證據 $B$ 出現的總機率,常用全機率公式展開:

$$P(B)=P(B\mid A)P(A)+P(B\mid A^c)P(A^c)$$

其中 $A^c$ 表示「$A$ 不發生」。整句話可以白話翻成:新信念 =(證據的合理性 × 舊信念)÷ 證據出現的總可能性

偽陽性之謎:一個會嚇到你的數字

現在來算一個經典又反直覺的例子,這也是統計素養的試金石。

假設有一種疾病,盛行率為 $1\%$,也就是 $P(\text{生病})=0.01$。某檢測的敏感度是 $99\%$(真的生病者,$99\%$ 會被驗出陽性),特異度也是 $99\%$(健康者,$99\%$ 會驗出陰性,意即偽陽性率為 $1\%$)。

你去做了檢測,結果是陽性。請問:你真的生病的機率是多少?

很多人直覺會說「大概 $99\%$ 吧」。我們用貝氏定理實際算一次。設 $A=\text{生病}$、$B=\text{驗出陽性}$。

先算各部分:

  • $P(B\mid A)=0.99$(生病者驗出陽性)
  • $P(A)=0.01$
  • $P(B\mid A^c)=0.01$(健康者偽陽性)
  • $P(A^c)=0.99$

代入全機率公式算分母:

$$P(B)=0.99\times 0.01 + 0.01\times 0.99 = 0.0099 + 0.0099 = 0.0198$$

再代入貝氏定理:

$$P(A\mid B)=\frac{0.99\times 0.01}{0.0198}=\frac{0.0099}{0.0198}=0.5$$

答案竟然只有 $50\%$!明明檢測準確率高達 $99\%$,但驗出陽性後真正生病的機率只有一半。原因在於:疾病本身很罕見(先驗很低),健康人數遠多於病人,因此「健康人裡偶爾的偽陽性」在絕對數量上,竟和「病人裡的真陽性」一樣多。

用 $10000$ 人來想最清楚:其中 $100$ 人生病,會有約 $99$ 人真陽性;另外 $9900$ 健康人,有 $1\%$ 偽陽性,約 $99$ 人。陽性者共 $198$ 人,真生病的只有一半。這就是基率謬誤(base rate fallacy)——忽略先驗機率,會嚴重高估後驗。

從一次更新到連續學習

貝氏定理最迷人的地方在於:後驗可以變成下一次的先驗。若你不放心,再驗第二次又是陽性,就把剛才的 $50\%$ 當作新的先驗代入,後驗會跳升到約 $99\%$。這正是「累積證據、逐步修正信念」的學習過程,也是許多 AI 系統判斷垃圾郵件、診斷輔助背後的核心思想。

不過要提醒:貝氏更新的品質取決於先驗是否合理、各事件是否真的條件獨立。把「相關」當成「因果」、或誤用一個不適當的先驗,都會讓結論失真。條件機率告訴我們「兩件事一起出現」,但它本身不保證誰造成了誰——這一點與整個統計推論的素養是相通的。

深入探討(研究所視角)

從測度論的角度,條件機率 $P(A\mid B)$ 在 $P(B)>0$ 時由初等定義給出,但當條件落在「機率為零的事件」(如連續隨機變數取特定值)時,需用條件期望 $E[\mathbf{1}_A\mid \mathcal{G}]$ 來嚴格定義——它是對某個 sub-$\sigma$-代數 $\mathcal{G}$ 的 Radon–Nikodym 導數,幾乎處處唯一。這避免了著名的 Borel–Kolmogorov 弔詭:在零測度條件下,樸素地「取極限」會因參數化方式不同而給出矛盾的答案。

貝氏框架與頻率學派的根本分歧在於參數的本質。頻率學派視參數 $\theta$ 為未知但固定的常數,估計量如最大概似估計(MLE)$\hat\theta=\arg\max_\theta L(\theta)$ 具有漸近性質:在正則條件下 MLE 是一致(consistent)且漸近有效的,達到 Cramér–Rao 下界 $\mathrm{Var}(\hat\theta)\ge 1/I(\theta)$,其中 $I(\theta)$ 為 Fisher 訊息。貝氏學派則把 $\theta$ 視為隨機變數,賦予先驗分布 $\pi(\theta)$,透過

$$\pi(\theta\mid x)=\frac{f(x\mid\theta)\,\pi(\theta)}{\int f(x\mid\theta)\,\pi(\theta)\,d\theta}$$

得到完整的後驗分布,而非單一點估計。在共軛先驗(conjugate prior)下後驗有封閉解,例如 Beta–Binomial:若先驗為 $\mathrm{Beta}(\alpha,\beta)$、觀察到 $s$ 次成功 $f$ 次失敗,後驗即 $\mathrm{Beta}(\alpha+s,\beta+f)$,使序列更新極為簡潔。

值得強調的是,MLE 可視為均勻先驗下的最大後驗(MAP)估計的特例;而 MAP 加上 Gaussian 先驗,數學上等價於 $L_2$ 正則化(嶺迴歸),Laplace 先驗則對應 $L_1$(LASSO)。這條線索把貝氏推論與現代機器學習的正則化、乃至樸素貝氏分類器、貝氏深度學習的不確定性量化直接連結起來。

兩派對「區間」的詮釋也截然不同:頻率學派的 $95\%$ 信賴區間指的是「重複抽樣下,約 $95\%$ 的區間會涵蓋真值」,並非「真值有 $95\%$ 機率落在此區間」——這是最常見的誤解之一。貝氏的可信區間(credible interval)才真的能說「給定資料,$\theta$ 有 $95\%$ 機率落在區間內」。隨資料量增大,Bernstein–von Mises 定理保證在溫和條件下後驗趨近以 MLE 為中心、變異數約為 $I(\theta)^{-1}/n$ 的常態分布,使兩派的區間在大樣本下漸趨一致。理解這層收斂,才能在實務上恰當地選擇先驗、解讀後驗,並避免把哲學立場誤當成計算技巧。

AI 共讀助教正在陪你讀:偽陽性之謎:用貝氏定理重新理解「已知一事」
嗨!我是這篇文章的共讀助教,只根據〈偽陽性之謎:用貝氏定理重新理解「已知一事」〉的內容回答。可以問我「解釋某段」「舉個例子」「出題考我」,或反白文中段落後點下方「解釋選取段落」。