假設檢定：如何用資料下判斷

從虛無假設、p 值到型一型二錯誤，學會在不確定中做出可被檢驗的結論

高中｜大學銜接 · 約 11 分鐘 ·#假設檢定#p值#虛無假設#型一型二錯誤#推論統計

從一杯奶茶談起：什麼是「假設檢定」

英國統計學家費雪（R. A. Fisher）曾講過一個著名故事：一位女士宣稱，她光憑舌頭就能分辨「先倒茶」還是「先倒奶」的奶茶。要怎麼判斷她是真有本事，還是純靠運氣猜對？這就是統計學裡「假設檢定」（hypothesis testing）的原型問題。

我們在生活中常常需要「用資料下判斷」：一款新藥真的有效嗎？這間工廠的零件合格率有沒有下降？某種教學法是不是真的提升了成績？但資料總是帶著隨機波動，今天量到平均高一點，可能只是運氣好。假設檢定提供一套有紀律的程序，讓我們在「不確定」中，仍能做出可被檢驗、可被質疑的結論。

核心精神只有一句話：我們先假設「沒有效果」，然後問——如果真的沒有效果，現在觀察到的資料有多麼罕見？ 若資料罕見到不像是「碰巧」，我們才有底氣推翻原本的假設。

假設檢定概念示意圖

虛無假設與對立假設

假設檢定一開始要立下兩個對立的主張：

虛無假設（null hypothesis） $H_0$：通常代表「沒有差異、沒有效果、現狀不變」。例如「新藥與安慰劑效果相同」。
對立假設（alternative hypothesis） $H_1$：我們想證明的主張。例如「新藥比安慰劑有效」。

這裡有個關鍵心態：我們不會去「證明」$H_0$ 成立，只會嘗試「推翻」它。這很像法庭上的「無罪推定」——被告先被假定無罪（$H_0$），檢方必須提出足夠強的證據才能定罪（拒絕 $H_0$）。證據不足時，我們說「無法拒絕 $H_0$」，而不是「$H_0$ 為真」。被判無罪不等於清白，只是證據不夠。

p 值：資料有多「罕見」？

衡量證據強度的工具就是 p 值。它的定義是：

假設 $H_0$ 為真，觀察到「目前這麼極端、或更極端」資料的機率。

p 值很小，代表「如果真的沒效果，這種結果幾乎不該發生」，於是我們傾向拒絕 $H_0$。慣例上以顯著水準 $\alpha = 0.05$ 為門檻：當 $p < 0.05$ 就稱結果「統計上顯著」。

但請務必記住一個最常見的誤解：

$$p \neq P(H_0 \text{ 為真})$$

p 值不是「虛無假設為真的機率」，也不是「結論出錯的機率」。它是「在 $H_0$ 成立的前提下，資料的罕見程度」。把兩者搞混，是統計新手最容易踩的坑。

一個帶數字的小範例：z 檢定

假設某高中歷年數學會考的成績，母體平均為 $\mu_0 = 70$ 分，母體標準差 $\sigma = 12$ 分。今年某校導入了一套新教學法，從中隨機抽取 $n = 36$ 名學生，得到樣本平均 $\bar{x} = 74$ 分。請問：新教學法真的提升了成績，還是只是抽樣的隨機波動？

第一步，立假設（單尾檢定，因為我們關心「是否提升」）：

$$H_0: \mu = 70 \qquad H_1: \mu > 70$$

第二步，算檢定統計量。 在 $H_0$ 成立下，樣本平均的抽樣分布標準誤為：

$$\frac{\sigma}{\sqrt{n}} = \frac{12}{\sqrt{36}} = \frac{12}{6} = 2$$

標準化後的 z 值：

$$z = \frac{\bar{x} - \mu_0}{\sigma/\sqrt{n}} = \frac{74 - 70}{2} = 2.0$$

第三步，下判斷。 單尾 $\alpha = 0.05$ 的臨界值是 $z_{0.05} = 1.645$。因為 $2.0 > 1.645$，落入拒絕區。對應的 p 值約為：

$$p = P(Z > 2.0) \approx 0.0228$$

由於 $p \approx 0.023 < 0.05$，我們拒絕 $H_0$，有統計證據支持新教學法確實提升了成績。

第四步，別忘了效果量。 提升了 $74 - 70 = 4$ 分，以標準差衡量是 $4/12 \approx 0.33$。這是「中等偏小」的效果。統計顯著不代表實務上重要——若樣本夠大，哪怕只高 0.5 分也可能「顯著」，但對教育現場意義有限。

型一錯誤與型二錯誤

既然是用機率下判斷，就一定會犯錯。錯誤分兩種：

	$H_0$ 實際為真	$H_0$ 實際為假
拒絕 $H_0$	型一錯誤（$\alpha$）	正確
不拒絕 $H_0$	正確	型二錯誤（$\beta$）

型一錯誤（Type I error）：$H_0$ 其實為真，卻被我們錯誤拒絕——「冤枉好人」「沒病卻說有病」。它發生的機率就是顯著水準 $\alpha$。
型二錯誤（Type II error）：$H_0$ 其實為假，我們卻沒能拒絕它——「放走壞人」「有病卻沒驗出」。其機率記為 $\beta$。

兩者此消彼長：把 $\alpha$ 訂得越嚴（如 0.01），越不容易冤枉好人，但也越容易放走壞人（$\beta$ 上升）。檢定力（power） 定義為 $1 - \beta$，代表「當真有效果時，能成功偵測到的能力」。增加樣本數，是同時壓低兩種錯誤最有效的方法。

選 $\alpha$ 要看代價：判錯藥有效（型一）會讓病人吃無效藥，後果嚴重，就該嚴格；新產品市場測試（漏掉商機）也許型二錯誤代價更高。沒有放諸四海皆準的門檻，0.05 只是慣例而非真理。

深入探討（研究所視角）

嚴格地說，假設檢定建立在 Neyman–Pearson 決策框架 上。給定顯著水準 $\alpha$，我們在所有「型一錯誤機率不超過 $\alpha$」的檢定中，尋找檢定力最大者。Neyman–Pearson 引理 證明：對於簡單假設對簡單假設，概似比檢定（likelihood ratio test）是最強檢定（most powerful test），拒絕域形如 $\Lambda(x) = \frac{L(\theta_0; x)}{L(\theta_1; x)} \le k$。這把「該用什麼統計量」從直覺提升為可證明的最適性。

費雪的 p 值取向與 Neyman–Pearson 的固定 $\alpha$ 取向其實哲學不同：前者把 p 值當作連續的證據強度，後者把檢定當作長期錯誤率受控的決策規則。現代實務常混用兩者，這也是諸多誤解的根源。

自由度（degrees of freedom） 在小樣本檢定中至關重要。當母體標準差未知、需以樣本標準差 $s$ 估計時，統計量

$$t = \frac{\bar{x} - \mu_0}{s/\sqrt{n}}$$

不再服從常態分布，而是服從自由度 $n-1$ 的 Student t 分布。少掉的一個自由度，是因為計算 $s$ 時用掉了一個由樣本估出的平均數。t 分布尾部較厚，正反映了「用估計量取代真值」帶來的額外不確定性。

評估估計量品質有三個經典性質：不偏性（$E[\hat\theta] = \theta$）、一致性（$\hat\theta \xrightarrow{p} \theta$，樣本越大越逼近真值）、有效性（在不偏估計量中變異數最小，下界由 Cramér–Rao 不等式刻畫）。最大概似估計（MLE） 在正則條件下具有漸近不偏、漸近常態與漸近有效的優良性質，是構造檢定統計量的主力，廣義概似比檢定統計量 $-2\ln\Lambda$ 在大樣本下漸近服從卡方分布（Wilks 定理）。

貝氏觀點 則徹底重構問題。它不問「資料有多罕見」，而直接用貝氏定理計算參數的後驗分布：

$$P(\theta \mid x) = \frac{P(x \mid \theta)\,P(\theta)}{P(x)}$$

並以 貝氏因子（Bayes factor）$\frac{P(x \mid H_1)}{P(x \mid H_0)}$ 量化兩假設的相對證據，避免了 p 值「在 $H_0$ 為真前提下」的條件式詮釋難題。代價是必須指定先驗分布，引入主觀成分。

最後，假設檢定與機器學習深刻相連。模型選擇的 AIC、BIC 可視為帶懲罰項的概似比；特徵顯著性檢定、A/B test 都是檢定的應用；而 ML 對「多重比較」格外敏感——同時檢驗成千上萬個假設時，型一錯誤會累積爆炸，需以 Bonferroni 校正或 Benjamini–Hochberg 的 偽發現率（FDR） 控制。這也呼應了當代「可重現性危機」對 p 值濫用（p-hacking）的深刻反思。

檢定力、效果量與樣本數規劃：從非中心參數到研究設計

--

1

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings