Home
探索 Uedu
學生控制台
註冊會員/登入
研究知情同意中心
教師控制台
課程設定
支援與訊息
Uptime 數據

UeduGPTs

--

Jupyters

2

UG26 CISOSE26
臺北 AQI 26 · 臺中 AQI 19 · 臺南 AQI 18 · 高雄 AQI 17

AI 回覆桌面通知

AI 助教回覆完成時顯示桌面通知

聊天訊息通知

同學在討論區發送訊息時通知

聲音通知

每當有新通知時播放提示音

t 檢定與卡方檢定

差 5 分算不算真的有差?t 檢定與卡方檢定入門

用兩類最常用的檢定,判斷平均數差異與類別關聯是不是只是運氣

從一個問題開始:兩組人「真的不一樣」嗎?

想像你是一位老師,班上嘗試了一套新的線上學習系統。學期末,使用新系統的 A 組平均考了 78 分,沒用的 B 組平均考了 73 分。你很興奮:差了 5 分耶!但安靜的內心冒出一個聲音:這 5 分,會不會只是運氣?換一批學生、換一次考試,說不定差距就消失了。

統計學最迷人的地方,就是它把「會不會只是運氣」這種模糊的擔憂,變成一個可以計算的問題。在推論統計裡,t 檢定負責回答「兩組的平均數是不是真的不同」,卡方檢定負責回答「兩個類別變數之間是不是真的有關聯」。這兩類檢定,幾乎涵蓋了社會科學、教育研究、醫學試驗裡最常見的提問,是進入資料分析世界的第一把鑰匙。

t 檢定與卡方檢定概念示意圖

t 檢定:比較平均數的工具

t 檢定的核心想法非常直觀:觀察到的差距,要拿「資料本身的雜訊」來衡量。差距大、雜訊小,我們才有信心說「這不是巧合」。

我們先設一個虛無假設(null hypothesis)$H_0$:兩組平均數其實一樣,看到的差距純屬抽樣誤差。對立假設 $H_1$ 則說:它們真的不同。獨立樣本 t 檢定的統計量是:

$$t=\frac{\bar{x}_1-\bar{x}_2}{\sqrt{\dfrac{s_1^2}{n_1}+\dfrac{s_2^2}{n_2}}}$$

分子是兩組平均數的差距,分母是「標準誤」——把各組的變異 $s^2$ 除以樣本數再開根號後合併,代表差距本身的不確定性。$t$ 值愈大,代表訊號相對於雜訊愈強。

一個帶數字的小範例

假設兩組各 10 人:

  • A 組:平均 $\bar{x}_1=78$,標準差 $s_1=8$,$n_1=10$
  • B 組:平均 $\bar{x}_2=73$,標準差 $s_2=9$,$n_2=10$

先算標準誤:

$$SE=\sqrt{\frac{8^2}{10}+\frac{9^2}{10}}=\sqrt{\frac{64}{10}+\frac{81}{10}}=\sqrt{6.4+8.1}=\sqrt{14.5}\approx 3.81$$

再算 t 值:

$$t=\frac{78-73}{3.81}=\frac{5}{3.81}\approx 1.31$$

自由度大約 $n_1+n_2-2=18$。查 t 分布表,在雙尾顯著水準 $\alpha=0.05$ 下的臨界值約為 $2.10$。我們算出的 $1.31$ 沒有超過 $2.10$,因此無法拒絕虛無假設

換成白話:那 5 分的差距,以目前的樣本數與變異程度來看,還不能排除「只是運氣」的可能。注意——這不代表新系統一定無效,只是這份資料還不足以證明它有效。如果我們把樣本數從 10 人增加到 100 人,相同的差距就可能變得「顯著」,因為標準誤會縮小。樣本愈大,愈容易偵測到真實的差距。

t 檢定的幾種常見版本

  • 單樣本 t 檢定:拿一組資料的平均數,和某個固定的標準值比(例如「這批產品平均重量是不是 500 克」)。
  • 獨立樣本 t 檢定:比兩個不相干的群體(如上例的 A、B 兩班)。
  • 成對樣本 t 檢定:同一群人「前後」兩次測量(如減重前後體重),因為每個人自己當對照,能消掉個體差異,往往更靈敏。

卡方檢定:類別之間有關聯嗎?

t 檢定處理的是「數字型」資料(分數、體重)。但生活裡很多變數是類別型的:性別、科系、是否通過、喜不喜歡。要問「文組/理組的同學,對線上學習的偏好是否不同」,平均數派不上用場,這時就輪到卡方檢定(chi-square test)。

卡方獨立性檢定的精神是比較「觀察次數」與「期望次數」:如果兩個變數真的無關,各格子裡的人數應該按邊際比例分配;實際數字偏離這個期望愈多,愈說明它們有關聯。統計量為:

$$\chi^2=\sum\frac{(O_i-E_i)^2}{E_i}$$

其中 $O_i$ 是實際觀察次數,$E_i$ 是無關聯假設下的期望次數。某格的期望次數算法是:

$$E_i=\frac{(\text{該列總和})\times(\text{該行總和})}{\text{總人數}}$$

舉個小例:120 位學生,問「喜不喜歡線上學習」:

喜歡 不喜歡 合計
文組 40 20 60
理組 30 30 60
合計 70 50 120

文組「喜歡」格的期望次數為 $\frac{60\times 70}{120}=35$。其餘格子同理,期望值分別是 35、25、35、25。代入公式:

$$\chi^2=\frac{(40-35)^2}{35}+\frac{(20-25)^2}{25}+\frac{(30-35)^2}{35}+\frac{(30-25)^2}{25}\approx 0.71+1.00+0.71+1.00=3.42$$

這個 $2\times 2$ 表的自由度是 $(2-1)\times(2-1)=1$,$\alpha=0.05$ 的臨界值為 $3.84$。我們的 $3.42$ 略低於 $3.84$,所以同樣無法宣稱文理組偏好有顯著差異——差很近,但還差一口氣。

別讓統計騙了你:素養比公式更重要

學會算 t 值和卡方值只是第一步,真正困難的是正確解讀。三個最常見的陷阱:

  1. 相關不等於因果。卡方檢定告訴你兩個變數「有關聯」,但不告訴你誰造成誰,也可能有第三個隱藏變數(例如「文組生本來就比較常用手機」)同時影響兩者。看到關聯,先想有沒有別的解釋。

  2. 誤解 p 值。p 值是「假設虛無為真時,看到這麼極端結果的機率」,不是「虛無假設為真的機率」,更不是「效果有多大」。$p=0.049$ 和 $p=0.051$ 沒有本質差別,別把 0.05 當成神聖的分界線。

  3. 「不顯著」不等於「沒差別」。沒拒絕虛無,可能只是樣本太小、檢定力不足。缺乏證據,不是「不存在」的證據。

統計檢定是幫助我們在不確定中做判斷的工具,而不是給出非黑即白答案的神諭。帶著謙遜與懷疑去用它,才是真正的統計素養。

深入探討(研究所視角)

在更嚴謹的層次,t 檢定不是憑空出現的配方,而是建立在抽樣分布理論之上。當資料來自常態母體、母體變異數未知並以樣本變異數 $s^2$ 估計時,統計量 $\frac{\bar{x}-\mu}{s/\sqrt{n}}$ 服從自由度為 $n-1$ 的 Student's t 分布(Gosset, 1908)。t 分布比常態分布尾部更厚,正是為了補償「用樣本估計母體變異」帶來的額外不確定性;當 $n\to\infty$,$s^2$ 收斂到真值,t 分布退化為標準常態。自由度的本質是獨立資訊量:估計平均數時消耗了一個約束,故剩 $n-1$。

估計量的品質可用三個性質衡量。樣本平均 $\bar{x}$ 是 $\mu$ 的不偏估計量($E[\bar{x}]=\mu$);隨 $n$ 增大依機率收斂到 $\mu$,具一致性;在常態假設下又是有效估計量,達到 Cramér–Rao 下界(變異數最小)。樣本變異數之所以除以 $n-1$ 而非 $n$,正是為了讓它對 $\sigma^2$ 不偏(貝索校正)。這些性質並非巧合:在常態模型下,t 檢定等價於最大概似估計(MLE)與概似比檢定的結果——對數概似函數對參數求導取極值,便得到我們熟悉的估計式。卡方統計量則可視為多項分布概似比的二階泰勒近似,皮爾森卡方與概似比卡方 $G^2$ 在大樣本下漸近等價。

現代研究更強調效果量(effect size)而非只看顯著與否。對 t 檢定常報告 Cohen's $d=\frac{\bar{x}_1-\bar{x}_2}{s_p}$,描述差距相對於合併標準差有多大;對卡方常用 Cramér's V 或 $\phi$ 係數衡量關聯強度。效果量不受樣本數膨脹影響,能補足 p 值「樣本一大就顯著」的缺陷,也是後設分析(meta-analysis)整合多研究的共同尺度。

貝氏觀點看,傳統檢定固定虛無、計算資料的極端程度;貝氏則對參數給定先驗,計算後驗 $P(\theta\mid \text{data})\propto P(\text{data}\mid\theta)P(\theta)$,並用貝氏因子比較模型相對證據,可直接量化「支持 $H_1$ 勝過 $H_0$ 的程度」,繞開 p 值的詮釋困境。最後,這套思維與機器學習一脈相承:t 檢定是線性迴歸的特例(單一二元預測變數),卡方關聯則與決策樹分裂準則、特徵選擇中的互資訊相通。理解檢定背後的概似與分布假設,正是看懂更複雜統計與學習模型的根基。

AI 共讀助教正在陪你讀:差 5 分算不算真的有差?t 檢定與卡方檢定入門
嗨!我是這篇文章的共讀助教,只根據〈差 5 分算不算真的有差?t 檢定與卡方檢定入門〉的內容回答。可以問我「解釋某段」「舉個例子」「出題考我」,或反白文中段落後點下方「解釋選取段落」。