t 檢定三種類型與其假設：從樞紐量到自由度的嚴謹推導

單一樣本、配對與獨立雙樣本如何由同一個常態除卡方的結構衍生，以及變異數齊一假設的分岔

進階 · 約 12 分鐘 ·#t 檢定#樞紐量#自由度#Welch 檢定#統計推論#配對設計

從一個比例談起：為什麼是「t」而不是「z」

當我們想判斷某個母體平均數 $\mu$ 是否等於某個假設值時，最自然的統計量是把樣本平均數標準化：$(\bar{X}-\mu_0)/(\sigma/\sqrt{n})$。問題在於母體標準差 $\sigma$ 幾乎永遠是未知的。把 $\sigma$ 換成樣本標準差 $S$ 後，分母本身變成隨機變數，整個比例的分配不再是常態，而是 William Gosset（筆名 Student）於 1908 年導出的 t 分配。t 檢定的三種類型——單一樣本、獨立雙樣本、配對樣本——本質上都是同一個樞紐量（pivotal quantity）在不同抽樣結構下的具體化。理解它們的差異，關鍵不在公式長相，而在自由度與獨立性假設如何被滿足。

t 檢定三種類型與其假設概念示意圖

樞紐量的構造：常態除以卡方

t 檢定能成立的數學核心是一個結構性定理。設 $X_1,\dots,X_n \stackrel{iid}{\sim} N(\mu,\sigma^2)$，則樣本平均 $\bar{X}$ 與樣本變異數 $S^2$ 相互獨立，且

$$\frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \sim N(0,1), \qquad \frac{(n-1)S^2}{\sigma^2} \sim \chi^2_{n-1}.$$

t 分配的定義是：若 $Z\sim N(0,1)$、$V\sim \chi^2_\nu$ 且兩者獨立，則

$$T = \frac{Z}{\sqrt{V/\nu}} \sim t_\nu.$$

把上面兩件事代入，$\sigma$ 恰好在分子分母中對消：

$$T = \frac{(\bar{X}-\mu)/(\sigma/\sqrt{n})}{\sqrt{\dfrac{(n-1)S^2}{\sigma^2}\Big/(n-1)}} = \frac{\bar{X}-\mu}{S/\sqrt{n}} \sim t_{n-1}.$$

這就是單一樣本 t 檢定的統計量。注意三個假設缺一不可：常態性保證 $Z$ 是常態、$\bar{X}\perp S^2$ 的獨立性保證分子分母獨立（這個獨立性是常態分配獨有的性質）、以及樣本獨立同分配。自由度 $n-1$ 來自估計 $\mu$ 時消耗了一個自由度。

配對樣本：化約為單一樣本

配對樣本 t 檢定常被誤認為是雙樣本的特例，其實它在數學上完全等同於單一樣本。對每個受試者取差值 $D_i = X_i - Y_i$，在虛無假設 $H_0:\mu_D=0$ 下，

$$T = \frac{\bar{D}-0}{S_D/\sqrt{n}} \sim t_{n-1},$$

其中 $S_D$ 是差值的樣本標準差。配對的精妙之處在於：個體間的差異（例如不同學生的基線能力）被差分消去了，因此即使 $X$ 與 $Y$ 高度相關也不違反假設——我們只要求 $D_i$ 之間彼此獨立且近似常態。事實上配對設計的效率優勢正源於此：若 $\mathrm{Cov}(X,Y)=\rho\sigma^2>0$，則

$$\mathrm{Var}(D) = 2\sigma^2(1-\rho),$$

相關性越高、差值變異越小、檢定力越大。把相關的觀測「硬拆」成獨立雙樣本反而浪費資訊。

獨立雙樣本：變異數齊一與否的分岔

獨立雙樣本 t 檢定比較兩個獨立母體 $N(\mu_1,\sigma_1^2)$ 與 $N(\mu_2,\sigma_2^2)$。此處出現一個關鍵分岔：兩母體變異數是否相等。

若假設 $\sigma_1^2=\sigma_2^2=\sigma^2$（齊一變異），可用併合變異數估計共同的 $\sigma^2$：

$$S_p^2 = \frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}.$$

這是兩個獨立卡方相加（$\chi^2_{n_1-1}+\chi^2_{n_2-1}=\chi^2_{n_1+n_2-2}$）的直接結果，因此統計量

$$T = \frac{\bar{X}_1-\bar{X}_2-(\mu_1-\mu_2)}{S_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \sim t_{n_1+n_2-2}.$$

若不假設變異數相等，則用 Welch t 檢定。此時分母用各自的變異數估計，但 $(\bar{X}_1-\bar{X}_2)$ 標準化後的卡方不再是精確的卡方，於是自由度以 Welch–Satterthwaite 近似：

$$\nu \approx \frac{\left(\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}\right)^2}{\frac{(S_1^2/n_1)^2}{n_1-1}+\frac{(S_2^2/n_2)^2}{n_2-1}}.$$

當代統計實務（含 R 的 t.test 預設）傾向直接使用 Welch，因為它在變異數相等時幾乎沒有損失，在不等時卻穩健得多——先做 F 檢定再選用何種 t 檢定的「二階段程序」反而會扭曲第一型錯誤率。

定量小範例

某教師想知道導入 AI 助教後學生分數是否提升，採配對設計，6 名學生前後測差值 $D_i$（後測減前測）為：$\{4, 6, 3, 8, 5, 4\}$。

差值平均：$\bar{D} = (4+6+3+8+5+4)/6 = 30/6 = 5$。

偏差平方和：$(-1)^2+1^2+(-2)^2+3^2+0^2+(-1)^2 = 1+1+4+9+0+1 = 16$。

樣本變異數：$S_D^2 = 16/(6-1) = 3.2$，故 $S_D = \sqrt{3.2}\approx 1.789$。

標準誤：$S_D/\sqrt{n} = 1.789/\sqrt{6} \approx 0.730$。

t 統計量：$T = 5/0.730 \approx 6.85$，自由度 $5$。

查表 $t_{0.025,5}=2.571$，因 $6.85 > 2.571$，在 $\alpha=0.05$ 下拒絕 $H_0$。但須謹記：這只說明前後測平均差顯著不為零，不等於 AI 助教「造成」進步——缺乏對照組，分數上升可能來自時間、練習效應或迴歸均值現象。把統計顯著性誤讀為因果效應，是統計素養最常見的失守點。同樣地，$p<0.05$ 不代表「效應為真的機率」，95% 信賴區間也不是「真值落在區間內的機率為 95%」，而是程序在重複抽樣下的長期覆蓋率。

深入探討（研究所視角）

從理論統計的高度看，t 檢定是漸近與有限樣本兩種視角交會之處。在常態假設下，t 統計量有精確的有限樣本分配；但即使資料非常態，只要 $\mathrm{Var}(X)<\infty$，由中央極限定理與 Slutsky 定理可證 $T \xrightarrow{d} N(0,1)$，因此大樣本下 t 檢定對非常態具有漸近穩健性。這解釋了實務上 t 檢定何以「比理論假設寬容」——真正脆弱的是小樣本、重尾或極端偏態的情形，此時可改用 bootstrap-t 重抽樣建構分配，避開對母體形狀的依賴。

從估計理論看，$\bar{X}$ 與 $S^2$ 並非隨意選擇。在常態族中，$(\bar{X},S^2)$ 是 $(\mu,\sigma^2)$ 的完備充分統計量，且 $\bar{X}$ 同時是 $\mu$ 的最大概似估計量與 UMVUE（一致最小變異不偏估計量）。最大概似法給出 $\hat\sigma^2_{MLE}=\frac{1}{n}\sum(X_i-\bar{X})^2$，其 $1/n$ 分母帶有偏誤，改用 $1/(n-1)$ 的不偏修正正對應到自由度。動差法（method of moments）在常態族恰好給出相同的點估計，但在偏態族兩者分歧，這也是 t 檢定推廣到廣義線性模型時 Wald／score／概似比三種檢定產生差異的根源——t 檢定可視為常態線性模型中 Wald 檢定的精確化身。

貝氏對應上，若對 $\mu$ 取無資訊先驗、對 $\sigma^2$ 取 Jeffreys 先驗 $p(\sigma^2)\propto 1/\sigma^2$，則 $\mu$ 的後驗邊際分配恰為一個位移縮放的 t 分配，其位置與尺度由 $\bar{X}$、$S$ 給出。換言之，頻率學派的 t 信賴區間與貝氏可信區間在此特例下數值重合，但詮釋截然不同：前者談程序的覆蓋率，後者談參數的後驗機率。當代研究進一步以 Bayes factor 取代 p 值（如 JZS 先驗下的貝氏 t 檢定），可量化證據支持虛無假設的程度，這是 p 值結構上無法提供的。

與機器學習及因果推論的連結同樣深刻。兩樣本均值差檢定的母數版本，正是平均處理效應（ATE）的估計：在隨機分派下，$\bar{X}_1-\bar{X}_2$ 是 ATE 的不偏估計，t 檢定即是對 ATE 是否為零的推論。但觀測資料中組別並非隨機分派，混淆因子會使均值差偏離因果效應——這正是傾向分數加權、雙重穩健估計（doubly robust）與 AIPW 等方法試圖修正的對象。現代因果推論的 influence-function 視角更顯示：許多半參數估計量的標準誤推導，本質上仍是把估計量寫成獨立項之和、再套用 CLT 得到漸近常態——與 t 統計量的構造一脈相承。理解 t 檢定的樞紐量結構，正是踏入這些前沿方法的地基。

← 上一篇

差 5 分算不算真的有差？t 檢定與卡方檢定入門

--

1

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings