Home
探索 Uedu
學生控制台
註冊會員/登入
研究知情同意中心
教師控制台
課程設定
支援與訊息
Uptime 數據

UeduGPTs

--

Jupyters

2

UG26 CISOSE26
臺北 AQI 28 · 臺中 AQI 16 · 臺南 AQI 16 · 高雄 AQI 17

AI 回覆桌面通知

AI 助教回覆完成時顯示桌面通知

聊天訊息通知

同學在討論區發送訊息時通知

聲音通知

每當有新通知時播放提示音

假設檢定

假設檢定:如何用資料下判斷

從虛無假設、p 值到型一型二錯誤,學會在不確定中做出可被檢驗的結論

從一杯奶茶談起:什麼是「假設檢定」

英國統計學家費雪(R. A. Fisher)曾講過一個著名故事:一位女士宣稱,她光憑舌頭就能分辨「先倒茶」還是「先倒奶」的奶茶。要怎麼判斷她是真有本事,還是純靠運氣猜對?這就是統計學裡「假設檢定」(hypothesis testing)的原型問題。

我們在生活中常常需要「用資料下判斷」:一款新藥真的有效嗎?這間工廠的零件合格率有沒有下降?某種教學法是不是真的提升了成績?但資料總是帶著隨機波動,今天量到平均高一點,可能只是運氣好。假設檢定提供一套有紀律的程序,讓我們在「不確定」中,仍能做出可被檢驗、可被質疑的結論。

核心精神只有一句話:我們先假設「沒有效果」,然後問——如果真的沒有效果,現在觀察到的資料有多麼罕見? 若資料罕見到不像是「碰巧」,我們才有底氣推翻原本的假設。

假設檢定概念示意圖

虛無假設與對立假設

假設檢定一開始要立下兩個對立的主張:

  • 虛無假設(null hypothesis) $H_0$:通常代表「沒有差異、沒有效果、現狀不變」。例如「新藥與安慰劑效果相同」。
  • 對立假設(alternative hypothesis) $H_1$:我們想證明的主張。例如「新藥比安慰劑有效」。

這裡有個關鍵心態:我們不會去「證明」$H_0$ 成立,只會嘗試「推翻」它。這很像法庭上的「無罪推定」——被告先被假定無罪($H_0$),檢方必須提出足夠強的證據才能定罪(拒絕 $H_0$)。證據不足時,我們說「無法拒絕 $H_0$」,而不是「$H_0$ 為真」。被判無罪不等於清白,只是證據不夠。

p 值:資料有多「罕見」?

衡量證據強度的工具就是 p 值。它的定義是:

假設 $H_0$ 為真,觀察到「目前這麼極端、或更極端」資料的機率。

p 值很小,代表「如果真的沒效果,這種結果幾乎不該發生」,於是我們傾向拒絕 $H_0$。慣例上以顯著水準 $\alpha = 0.05$ 為門檻:當 $p < 0.05$ 就稱結果「統計上顯著」。

但請務必記住一個最常見的誤解

$$p \neq P(H_0 \text{ 為真})$$

p 值不是「虛無假設為真的機率」,也不是「結論出錯的機率」。它是「在 $H_0$ 成立的前提下,資料的罕見程度」。把兩者搞混,是統計新手最容易踩的坑。

一個帶數字的小範例:z 檢定

假設某高中歷年數學會考的成績,母體平均為 $\mu_0 = 70$ 分,母體標準差 $\sigma = 12$ 分。今年某校導入了一套新教學法,從中隨機抽取 $n = 36$ 名學生,得到樣本平均 $\bar{x} = 74$ 分。請問:新教學法真的提升了成績,還是只是抽樣的隨機波動?

第一步,立假設(單尾檢定,因為我們關心「是否提升」):

$$H_0: \mu = 70 \qquad H_1: \mu > 70$$

第二步,算檢定統計量。 在 $H_0$ 成立下,樣本平均的抽樣分布標準誤為:

$$\frac{\sigma}{\sqrt{n}} = \frac{12}{\sqrt{36}} = \frac{12}{6} = 2$$

標準化後的 z 值:

$$z = \frac{\bar{x} - \mu_0}{\sigma/\sqrt{n}} = \frac{74 - 70}{2} = 2.0$$

第三步,下判斷。 單尾 $\alpha = 0.05$ 的臨界值是 $z_{0.05} = 1.645$。因為 $2.0 > 1.645$,落入拒絕區。對應的 p 值約為:

$$p = P(Z > 2.0) \approx 0.0228$$

由於 $p \approx 0.023 < 0.05$,我們拒絕 $H_0$,有統計證據支持新教學法確實提升了成績。

第四步,別忘了效果量。 提升了 $74 - 70 = 4$ 分,以標準差衡量是 $4/12 \approx 0.33$。這是「中等偏小」的效果。統計顯著不代表實務上重要——若樣本夠大,哪怕只高 0.5 分也可能「顯著」,但對教育現場意義有限。

型一錯誤與型二錯誤

既然是用機率下判斷,就一定會犯錯。錯誤分兩種:

$H_0$ 實際為真 $H_0$ 實際為假
拒絕 $H_0$ 型一錯誤($\alpha$) 正確
不拒絕 $H_0$ 正確 型二錯誤($\beta$)
  • 型一錯誤(Type I error):$H_0$ 其實為真,卻被我們錯誤拒絕——「冤枉好人」「沒病卻說有病」。它發生的機率就是顯著水準 $\alpha$。
  • 型二錯誤(Type II error):$H_0$ 其實為假,我們卻沒能拒絕它——「放走壞人」「有病卻沒驗出」。其機率記為 $\beta$。

兩者此消彼長:把 $\alpha$ 訂得越嚴(如 0.01),越不容易冤枉好人,但也越容易放走壞人($\beta$ 上升)。檢定力(power) 定義為 $1 - \beta$,代表「當真有效果時,能成功偵測到的能力」。增加樣本數,是同時壓低兩種錯誤最有效的方法。

選 $\alpha$ 要看代價:判錯藥有效(型一)會讓病人吃無效藥,後果嚴重,就該嚴格;新產品市場測試(漏掉商機)也許型二錯誤代價更高。沒有放諸四海皆準的門檻,0.05 只是慣例而非真理。

相關不等於因果

最後提醒一個更上位的素養:即使檢定顯著,也只說明「兩者有統計關聯」,不代表因果。新教學法班級成績較高,可能是因為這些班本來就是資優班、或老師更投入。要談因果,需要隨機分派的實驗設計,把其他干擾因素打散。p 值再小,都無法替代良好的研究設計。假設檢定是強大的工具,但它回答的是「資料夠不夠罕見」,而非「世界是怎麼運作的」。

深入探討(研究所視角)

嚴格地說,假設檢定建立在 Neyman–Pearson 決策框架 上。給定顯著水準 $\alpha$,我們在所有「型一錯誤機率不超過 $\alpha$」的檢定中,尋找檢定力最大者。Neyman–Pearson 引理 證明:對於簡單假設對簡單假設,概似比檢定(likelihood ratio test)是最強檢定(most powerful test),拒絕域形如 $\Lambda(x) = \frac{L(\theta_0; x)}{L(\theta_1; x)} \le k$。這把「該用什麼統計量」從直覺提升為可證明的最適性。

費雪的 p 值取向與 Neyman–Pearson 的固定 $\alpha$ 取向其實哲學不同:前者把 p 值當作連續的證據強度,後者把檢定當作長期錯誤率受控的決策規則。現代實務常混用兩者,這也是諸多誤解的根源。

自由度(degrees of freedom) 在小樣本檢定中至關重要。當母體標準差未知、需以樣本標準差 $s$ 估計時,統計量

$$t = \frac{\bar{x} - \mu_0}{s/\sqrt{n}}$$

不再服從常態分布,而是服從自由度 $n-1$ 的 Student t 分布。少掉的一個自由度,是因為計算 $s$ 時用掉了一個由樣本估出的平均數。t 分布尾部較厚,正反映了「用估計量取代真值」帶來的額外不確定性。

評估估計量品質有三個經典性質:不偏性($E[\hat\theta] = \theta$)、一致性($\hat\theta \xrightarrow{p} \theta$,樣本越大越逼近真值)、有效性(在不偏估計量中變異數最小,下界由 Cramér–Rao 不等式刻畫)。最大概似估計(MLE) 在正則條件下具有漸近不偏、漸近常態與漸近有效的優良性質,是構造檢定統計量的主力,廣義概似比檢定統計量 $-2\ln\Lambda$ 在大樣本下漸近服從卡方分布(Wilks 定理)。

貝氏觀點 則徹底重構問題。它不問「資料有多罕見」,而直接用貝氏定理計算參數的後驗分布:

$$P(\theta \mid x) = \frac{P(x \mid \theta)\,P(\theta)}{P(x)}$$

並以 貝氏因子(Bayes factor)$\frac{P(x \mid H_1)}{P(x \mid H_0)}$ 量化兩假設的相對證據,避免了 p 值「在 $H_0$ 為真前提下」的條件式詮釋難題。代價是必須指定先驗分布,引入主觀成分。

最後,假設檢定與機器學習深刻相連。模型選擇的 AIC、BIC 可視為帶懲罰項的概似比;特徵顯著性檢定、A/B test 都是檢定的應用;而 ML 對「多重比較」格外敏感——同時檢驗成千上萬個假設時,型一錯誤會累積爆炸,需以 Bonferroni 校正或 Benjamini–Hochberg 的 偽發現率(FDR) 控制。這也呼應了當代「可重現性危機」對 p 值濫用(p-hacking)的深刻反思。

AI 共讀助教正在陪你讀:假設檢定:如何用資料下判斷
嗨!我是這篇文章的共讀助教,只根據〈假設檢定:如何用資料下判斷〉的內容回答。可以問我「解釋某段」「舉個例子」「出題考我」,或反白文中段落後點下方「解釋選取段落」。