Home
探索 Uedu
學生控制台
註冊會員/登入
研究知情同意中心
教師控制台
課程設定
支援與訊息
Uptime 數據

UeduGPTs

--

Jupyters

2

UG26 CISOSE26
臺北 AQI 26 · 臺中 AQI 19 · 臺南 AQI 18 · 高雄 AQI 17

AI 回覆桌面通知

AI 助教回覆完成時顯示桌面通知

聊天訊息通知

同學在討論區發送訊息時通知

聲音通知

每當有新通知時播放提示音

t 檢定與卡方檢定

t 檢定三種類型與其假設:從樞紐量到自由度的嚴謹推導

單一樣本、配對與獨立雙樣本如何由同一個常態除卡方的結構衍生,以及變異數齊一假設的分岔

從一個比例談起:為什麼是「t」而不是「z」

當我們想判斷某個母體平均數 $\mu$ 是否等於某個假設值時,最自然的統計量是把樣本平均數標準化:$(\bar{X}-\mu_0)/(\sigma/\sqrt{n})$。問題在於母體標準差 $\sigma$ 幾乎永遠是未知的。把 $\sigma$ 換成樣本標準差 $S$ 後,分母本身變成隨機變數,整個比例的分配不再是常態,而是 William Gosset(筆名 Student)於 1908 年導出的 t 分配。t 檢定的三種類型——單一樣本、獨立雙樣本、配對樣本——本質上都是同一個樞紐量(pivotal quantity)在不同抽樣結構下的具體化。理解它們的差異,關鍵不在公式長相,而在自由度與獨立性假設如何被滿足。

t 檢定三種類型與其假設概念示意圖

樞紐量的構造:常態除以卡方

t 檢定能成立的數學核心是一個結構性定理。設 $X_1,\dots,X_n \stackrel{iid}{\sim} N(\mu,\sigma^2)$,則樣本平均 $\bar{X}$ 與樣本變異數 $S^2$ 相互獨立,且

$$\frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \sim N(0,1), \qquad \frac{(n-1)S^2}{\sigma^2} \sim \chi^2_{n-1}.$$

t 分配的定義是:若 $Z\sim N(0,1)$、$V\sim \chi^2_\nu$ 且兩者獨立,則

$$T = \frac{Z}{\sqrt{V/\nu}} \sim t_\nu.$$

把上面兩件事代入,$\sigma$ 恰好在分子分母中對消:

$$T = \frac{(\bar{X}-\mu)/(\sigma/\sqrt{n})}{\sqrt{\dfrac{(n-1)S^2}{\sigma^2}\Big/(n-1)}} = \frac{\bar{X}-\mu}{S/\sqrt{n}} \sim t_{n-1}.$$

這就是單一樣本 t 檢定的統計量。注意三個假設缺一不可:常態性保證 $Z$ 是常態、$\bar{X}\perp S^2$ 的獨立性保證分子分母獨立(這個獨立性是常態分配獨有的性質)、以及樣本獨立同分配。自由度 $n-1$ 來自估計 $\mu$ 時消耗了一個自由度。

配對樣本:化約為單一樣本

配對樣本 t 檢定常被誤認為是雙樣本的特例,其實它在數學上完全等同於單一樣本。對每個受試者取差值 $D_i = X_i - Y_i$,在虛無假設 $H_0:\mu_D=0$ 下,

$$T = \frac{\bar{D}-0}{S_D/\sqrt{n}} \sim t_{n-1},$$

其中 $S_D$ 是差值的樣本標準差。配對的精妙之處在於:個體間的差異(例如不同學生的基線能力)被差分消去了,因此即使 $X$ 與 $Y$ 高度相關也不違反假設——我們只要求 $D_i$ 之間彼此獨立且近似常態。事實上配對設計的效率優勢正源於此:若 $\mathrm{Cov}(X,Y)=\rho\sigma^2>0$,則

$$\mathrm{Var}(D) = 2\sigma^2(1-\rho),$$

相關性越高、差值變異越小、檢定力越大。把相關的觀測「硬拆」成獨立雙樣本反而浪費資訊。

獨立雙樣本:變異數齊一與否的分岔

獨立雙樣本 t 檢定比較兩個獨立母體 $N(\mu_1,\sigma_1^2)$ 與 $N(\mu_2,\sigma_2^2)$。此處出現一個關鍵分岔:兩母體變異數是否相等。

若假設 $\sigma_1^2=\sigma_2^2=\sigma^2$(齊一變異),可用併合變異數估計共同的 $\sigma^2$:

$$S_p^2 = \frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}.$$

這是兩個獨立卡方相加($\chi^2_{n_1-1}+\chi^2_{n_2-1}=\chi^2_{n_1+n_2-2}$)的直接結果,因此統計量

$$T = \frac{\bar{X}_1-\bar{X}_2-(\mu_1-\mu_2)}{S_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \sim t_{n_1+n_2-2}.$$

若不假設變異數相等,則用 Welch t 檢定。此時分母用各自的變異數估計,但 $(\bar{X}_1-\bar{X}_2)$ 標準化後的卡方不再是精確的卡方,於是自由度以 Welch–Satterthwaite 近似:

$$\nu \approx \frac{\left(\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}\right)^2}{\frac{(S_1^2/n_1)^2}{n_1-1}+\frac{(S_2^2/n_2)^2}{n_2-1}}.$$

當代統計實務(含 R 的 t.test 預設)傾向直接使用 Welch,因為它在變異數相等時幾乎沒有損失,在不等時卻穩健得多——先做 F 檢定再選用何種 t 檢定的「二階段程序」反而會扭曲第一型錯誤率。

定量小範例

某教師想知道導入 AI 助教後學生分數是否提升,採配對設計,6 名學生前後測差值 $D_i$(後測減前測)為:$\{4, 6, 3, 8, 5, 4\}$。

差值平均:$\bar{D} = (4+6+3+8+5+4)/6 = 30/6 = 5$。

偏差平方和:$(-1)^2+1^2+(-2)^2+3^2+0^2+(-1)^2 = 1+1+4+9+0+1 = 16$。

樣本變異數:$S_D^2 = 16/(6-1) = 3.2$,故 $S_D = \sqrt{3.2}\approx 1.789$。

標準誤:$S_D/\sqrt{n} = 1.789/\sqrt{6} \approx 0.730$。

t 統計量:$T = 5/0.730 \approx 6.85$,自由度 $5$。

查表 $t_{0.025,5}=2.571$,因 $6.85 > 2.571$,在 $\alpha=0.05$ 下拒絕 $H_0$。但須謹記:這只說明前後測平均差顯著不為零,不等於 AI 助教「造成」進步——缺乏對照組,分數上升可能來自時間、練習效應或迴歸均值現象。把統計顯著性誤讀為因果效應,是統計素養最常見的失守點。同樣地,$p<0.05$ 不代表「效應為真的機率」,95% 信賴區間也不是「真值落在區間內的機率為 95%」,而是程序在重複抽樣下的長期覆蓋率。

深入探討(研究所視角)

從理論統計的高度看,t 檢定是漸近有限樣本兩種視角交會之處。在常態假設下,t 統計量有精確的有限樣本分配;但即使資料非常態,只要 $\mathrm{Var}(X)<\infty$,由中央極限定理與 Slutsky 定理可證 $T \xrightarrow{d} N(0,1)$,因此大樣本下 t 檢定對非常態具有漸近穩健性。這解釋了實務上 t 檢定何以「比理論假設寬容」——真正脆弱的是小樣本、重尾或極端偏態的情形,此時可改用 bootstrap-t 重抽樣建構分配,避開對母體形狀的依賴。

從估計理論看,$\bar{X}$ 與 $S^2$ 並非隨意選擇。在常態族中,$(\bar{X},S^2)$ 是 $(\mu,\sigma^2)$ 的完備充分統計量,且 $\bar{X}$ 同時是 $\mu$ 的最大概似估計量與 UMVUE(一致最小變異不偏估計量)。最大概似法給出 $\hat\sigma^2_{MLE}=\frac{1}{n}\sum(X_i-\bar{X})^2$,其 $1/n$ 分母帶有偏誤,改用 $1/(n-1)$ 的不偏修正正對應到自由度。動差法(method of moments)在常態族恰好給出相同的點估計,但在偏態族兩者分歧,這也是 t 檢定推廣到廣義線性模型時 Wald/score/概似比三種檢定產生差異的根源——t 檢定可視為常態線性模型中 Wald 檢定的精確化身。

貝氏對應上,若對 $\mu$ 取無資訊先驗、對 $\sigma^2$ 取 Jeffreys 先驗 $p(\sigma^2)\propto 1/\sigma^2$,則 $\mu$ 的後驗邊際分配恰為一個位移縮放的 t 分配,其位置與尺度由 $\bar{X}$、$S$ 給出。換言之,頻率學派的 t 信賴區間與貝氏可信區間在此特例下數值重合,但詮釋截然不同:前者談程序的覆蓋率,後者談參數的後驗機率。當代研究進一步以 Bayes factor 取代 p 值(如 JZS 先驗下的貝氏 t 檢定),可量化證據支持虛無假設的程度,這是 p 值結構上無法提供的。

與機器學習及因果推論的連結同樣深刻。兩樣本均值差檢定的母數版本,正是平均處理效應(ATE)的估計:在隨機分派下,$\bar{X}_1-\bar{X}_2$ 是 ATE 的不偏估計,t 檢定即是對 ATE 是否為零的推論。但觀測資料中組別並非隨機分派,混淆因子會使均值差偏離因果效應——這正是傾向分數加權、雙重穩健估計(doubly robust)與 AIPW 等方法試圖修正的對象。現代因果推論的 influence-function 視角更顯示:許多半參數估計量的標準誤推導,本質上仍是把估計量寫成獨立項之和、再套用 CLT 得到漸近常態——與 t 統計量的構造一脈相承。理解 t 檢定的樞紐量結構,正是踏入這些前沿方法的地基。

AI 共讀助教正在陪你讀:t 檢定三種類型與其假設:從樞紐量到自由度的嚴謹推導
嗨!我是這篇文章的共讀助教,只根據〈t 檢定三種類型與其假設:從樞紐量到自由度的嚴謹推導〉的內容回答。可以問我「解釋某段」「舉個例子」「出題考我」,或反白文中段落後點下方「解釋選取段落」。