差 5 分算不算真的有差？t 檢定與卡方檢定入門

用兩類最常用的檢定，判斷平均數差異與類別關聯是不是只是運氣

高中｜大學銜接 · 約 11 分鐘 ·#t檢定#卡方檢定#假設檢定#p值#統計素養

從一個問題開始：兩組人「真的不一樣」嗎？

想像你是一位老師，班上嘗試了一套新的線上學習系統。學期末，使用新系統的 A 組平均考了 78 分，沒用的 B 組平均考了 73 分。你很興奮：差了 5 分耶！但安靜的內心冒出一個聲音：這 5 分，會不會只是運氣？換一批學生、換一次考試，說不定差距就消失了。

統計學最迷人的地方，就是它把「會不會只是運氣」這種模糊的擔憂，變成一個可以計算的問題。在推論統計裡，t 檢定負責回答「兩組的平均數是不是真的不同」，卡方檢定負責回答「兩個類別變數之間是不是真的有關聯」。這兩類檢定，幾乎涵蓋了社會科學、教育研究、醫學試驗裡最常見的提問，是進入資料分析世界的第一把鑰匙。

t 檢定與卡方檢定概念示意圖

t 檢定：比較平均數的工具

t 檢定的核心想法非常直觀：觀察到的差距，要拿「資料本身的雜訊」來衡量。差距大、雜訊小，我們才有信心說「這不是巧合」。

我們先設一個虛無假設（null hypothesis）$H_0$：兩組平均數其實一樣，看到的差距純屬抽樣誤差。對立假設 $H_1$ 則說：它們真的不同。獨立樣本 t 檢定的統計量是：

$$t=\frac{\bar{x}_1-\bar{x}_2}{\sqrt{\dfrac{s_1^2}{n_1}+\dfrac{s_2^2}{n_2}}}$$

分子是兩組平均數的差距，分母是「標準誤」——把各組的變異 $s^2$ 除以樣本數再開根號後合併，代表差距本身的不確定性。$t$ 值愈大，代表訊號相對於雜訊愈強。

一個帶數字的小範例

假設兩組各 10 人：

A 組：平均 $\bar{x}_1=78$，標準差 $s_1=8$，$n_1=10$
B 組：平均 $\bar{x}_2=73$，標準差 $s_2=9$，$n_2=10$

先算標準誤：

$$SE=\sqrt{\frac{8^2}{10}+\frac{9^2}{10}}=\sqrt{\frac{64}{10}+\frac{81}{10}}=\sqrt{6.4+8.1}=\sqrt{14.5}\approx 3.81$$

再算 t 值：

$$t=\frac{78-73}{3.81}=\frac{5}{3.81}\approx 1.31$$

自由度大約 $n_1+n_2-2=18$。查 t 分布表，在雙尾顯著水準 $\alpha=0.05$ 下的臨界值約為 $2.10$。我們算出的 $1.31$ 沒有超過 $2.10$，因此無法拒絕虛無假設。

換成白話：那 5 分的差距，以目前的樣本數與變異程度來看，還不能排除「只是運氣」的可能。注意——這不代表新系統一定無效，只是這份資料還不足以證明它有效。如果我們把樣本數從 10 人增加到 100 人，相同的差距就可能變得「顯著」，因為標準誤會縮小。樣本愈大，愈容易偵測到真實的差距。

t 檢定的幾種常見版本

單樣本 t 檢定：拿一組資料的平均數，和某個固定的標準值比（例如「這批產品平均重量是不是 500 克」）。
獨立樣本 t 檢定：比兩個不相干的群體（如上例的 A、B 兩班）。
成對樣本 t 檢定：同一群人「前後」兩次測量（如減重前後體重），因為每個人自己當對照，能消掉個體差異，往往更靈敏。

卡方檢定：類別之間有關聯嗎？

t 檢定處理的是「數字型」資料（分數、體重）。但生活裡很多變數是類別型的：性別、科系、是否通過、喜不喜歡。要問「文組／理組的同學，對線上學習的偏好是否不同」，平均數派不上用場，這時就輪到卡方檢定（chi-square test）。

卡方獨立性檢定的精神是比較「觀察次數」與「期望次數」：如果兩個變數真的無關，各格子裡的人數應該按邊際比例分配；實際數字偏離這個期望愈多，愈說明它們有關聯。統計量為：

$$\chi^2=\sum\frac{(O_i-E_i)^2}{E_i}$$

其中 $O_i$ 是實際觀察次數，$E_i$ 是無關聯假設下的期望次數。某格的期望次數算法是：

$$E_i=\frac{(\text{該列總和})\times(\text{該行總和})}{\text{總人數}}$$

舉個小例：120 位學生，問「喜不喜歡線上學習」：

	喜歡	不喜歡	合計
文組	40	20	60
理組	30	30	60
合計	70	50	120

文組「喜歡」格的期望次數為 $\frac{60\times 70}{120}=35$。其餘格子同理，期望值分別是 35、25、35、25。代入公式：

$$\chi^2=\frac{(40-35)^2}{35}+\frac{(20-25)^2}{25}+\frac{(30-35)^2}{35}+\frac{(30-25)^2}{25}\approx 0.71+1.00+0.71+1.00=3.42$$

這個 $2\times 2$ 表的自由度是 $(2-1)\times(2-1)=1$，$\alpha=0.05$ 的臨界值為 $3.84$。我們的 $3.42$ 略低於 $3.84$，所以同樣無法宣稱文理組偏好有顯著差異——差很近，但還差一口氣。

別讓統計騙了你：素養比公式更重要

學會算 t 值和卡方值只是第一步，真正困難的是正確解讀。三個最常見的陷阱：

相關不等於因果。卡方檢定告訴你兩個變數「有關聯」，但不告訴你誰造成誰，也可能有第三個隱藏變數（例如「文組生本來就比較常用手機」）同時影響兩者。看到關聯，先想有沒有別的解釋。
誤解 p 值。p 值是「假設虛無為真時，看到這麼極端結果的機率」，不是「虛無假設為真的機率」，更不是「效果有多大」。$p=0.049$ 和 $p=0.051$ 沒有本質差別，別把 0.05 當成神聖的分界線。
「不顯著」不等於「沒差別」。沒拒絕虛無，可能只是樣本太小、檢定力不足。缺乏證據，不是「不存在」的證據。

統計檢定是幫助我們在不確定中做判斷的工具，而不是給出非黑即白答案的神諭。帶著謙遜與懷疑去用它，才是真正的統計素養。

深入探討（研究所視角）

在更嚴謹的層次，t 檢定不是憑空出現的配方，而是建立在抽樣分布理論之上。當資料來自常態母體、母體變異數未知並以樣本變異數 $s^2$ 估計時，統計量 $\frac{\bar{x}-\mu}{s/\sqrt{n}}$ 服從自由度為 $n-1$ 的 Student's t 分布（Gosset, 1908）。t 分布比常態分布尾部更厚，正是為了補償「用樣本估計母體變異」帶來的額外不確定性；當 $n\to\infty$，$s^2$ 收斂到真值，t 分布退化為標準常態。自由度的本質是獨立資訊量：估計平均數時消耗了一個約束，故剩 $n-1$。

估計量的品質可用三個性質衡量。樣本平均 $\bar{x}$ 是 $\mu$ 的不偏估計量（$E[\bar{x}]=\mu$）；隨 $n$ 增大依機率收斂到 $\mu$，具一致性；在常態假設下又是有效估計量，達到 Cramér–Rao 下界（變異數最小）。樣本變異數之所以除以 $n-1$ 而非 $n$，正是為了讓它對 $\sigma^2$ 不偏（貝索校正）。這些性質並非巧合：在常態模型下，t 檢定等價於最大概似估計（MLE）與概似比檢定的結果——對數概似函數對參數求導取極值，便得到我們熟悉的估計式。卡方統計量則可視為多項分布概似比的二階泰勒近似，皮爾森卡方與概似比卡方 $G^2$ 在大樣本下漸近等價。

現代研究更強調效果量（effect size）而非只看顯著與否。對 t 檢定常報告 Cohen's $d=\frac{\bar{x}_1-\bar{x}_2}{s_p}$，描述差距相對於合併標準差有多大；對卡方常用 Cramér's V 或 $\phi$ 係數衡量關聯強度。效果量不受樣本數膨脹影響，能補足 p 值「樣本一大就顯著」的缺陷，也是後設分析（meta-analysis）整合多研究的共同尺度。

從貝氏觀點看，傳統檢定固定虛無、計算資料的極端程度；貝氏則對參數給定先驗，計算後驗 $P(\theta\mid \text{data})\propto P(\text{data}\mid\theta)P(\theta)$，並用貝氏因子比較模型相對證據，可直接量化「支持 $H_1$ 勝過 $H_0$ 的程度」，繞開 p 值的詮釋困境。最後，這套思維與機器學習一脈相承：t 檢定是線性迴歸的特例（單一二元預測變數），卡方關聯則與決策樹分裂準則、特徵選擇中的互資訊相通。理解檢定背後的概似與分布假設，正是看懂更複雜統計與學習模型的根基。

t 檢定三種類型與其假設：從樞紐量到自由度的嚴謹推導

--

1

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings