Home
探索 Uedu
學生控制台
註冊會員/登入
研究知情同意中心
教師控制台
課程設定
支援與訊息
Uptime 數據

UeduGPTs

--

Jupyters

2

UG26 CISOSE26
臺北 AQI 26 · 臺中 AQI 19 · 臺南 AQI 18 · 高雄 AQI 17

AI 回覆桌面通知

AI 助教回覆完成時顯示桌面通知

聊天訊息通知

同學在討論區發送訊息時通知

聲音通知

每當有新通知時播放提示音

多層次與混合模型

多層次與混合模型(HLM):學生巢套於班級的階層資料分析

從 ICC、隨機截距與隨機斜率,到收縮估計、REML 與跨層次交互作用,誠實分析教育資料的層級結構

兩個班級的及格率都是七成,能說兩位老師一樣好嗎?

假設甲班與乙班的數學期末及格率都是七成,表面上兩位老師的教學成效不分軒輊。但若甲班學生入學程度落後、乙班則是資優班,這個「七成」背後的意義天差地遠。更麻煩的是:當我們把全校上千名學生丟進一條普通迴歸式,去估計「補習時數對成績的影響」時,模型悄悄假設了每一位學生彼此獨立——可是同一個班的學生共用同一位老師、同一套教材、同一種班級氣氛,他們的成績本來就比跨班學生更相似。忽略這層巢套(nesting)結構,估出來的標準誤會嚴重低估,讓你誤判一個其實不顯著的效果「達到顯著」。

這正是多層次模型(Multilevel Model,又稱階層線性模型 HLM、混合效果模型 Mixed-effects Model)要解決的核心問題:當資料天生具有「學生巢套於班級、班級巢套於學校」的層級結構時,如何誠實地分析它。

多層次與混合模型概念示意圖

為什麼不能假裝資料是獨立的

傳統最小平方迴歸(OLS)有一條關鍵假設:觀測值之間互相獨立。當資料是巢套的,這條假設被破壞。同一班級的學生因共享環境而產生組內相關(intra-class correlation),殘差不再獨立。

後果有兩個方向,都很危險:

  1. 標準誤被低估:模型誤以為你有 1000 筆獨立資訊,但若這 1000 人來自 40 個高度同質的班級,有效樣本量遠小於 1000。標準誤偏小、t 值偏大、p 值偏小——你會宣稱一堆假的顯著效果(型一錯誤膨脹)。
  2. 層級混淆:班級層級的變數(如老師年資)與學生層級的變數(如學生用功程度)若擠在同一條迴歸,係數的解釋會糾纏不清。

生態謬誤與聚合偏誤

巢套資料還藏著一個經典陷阱。生態謬誤(ecological fallacy) 指用「群體層級」的相關去推論「個人層級」的關係。例如:跨校比較發現「平均家庭收入越高的學校,平均成績越高」,於是推論「個別有錢學生成績較好」——這推論未必成立,因為兩個層級的關係可以完全不同,甚至方向相反(這稱為 Simpson 弔詭)。

反過來,聚合偏誤(aggregation bias) 指把學生層級資料硬聚合成班級平均後再分析,丟掉了組內變異的資訊。多層次模型的價值在於:它同時估計組內(學生間)與組間(班級間)兩種關係,讓你不必在「全部當個人」與「全部當群體」之間二選一。

隨機截距模型:每個班有自己的起點

最基本的多層次模型是隨機截距模型(random intercept model)。設第 $i$ 位學生巢套於第 $j$ 個班級,成績為 $y_{ij}$,個人層級預測變數(如讀書時數)為 $x_{ij}$:

$$y_{ij} = \beta_0 + \beta_1 x_{ij} + u_{0j} + \varepsilon_{ij}$$

其中:

  • $\beta_0$ 是全體平均截距(固定效果),$\beta_1$ 是讀書時數的固定斜率。
  • $u_{0j} \sim N(0, \tau_0^2)$ 是第 $j$ 班的隨機截距偏移,代表「這個班整體比平均高或低多少」。
  • $\varepsilon_{ij} \sim N(0, \sigma^2)$ 是學生層級殘差。

直覺是:每個班級有自己的基準線 $\beta_0 + u_{0j}$,但讀書時數對成績的影響(斜率 $\beta_1$)在所有班級都一樣。$u_{0j}$ 與 $\varepsilon_{ij}$ 假設彼此獨立。

隨機斜率模型:效果在各班強度不同

現實中,讀書時數的「效益」可能因班而異——教學嚴謹的班,多讀一小時進步較多。這時加入隨機斜率(random slope)

$$y_{ij} = \beta_0 + \beta_1 x_{ij} + u_{0j} + u_{1j} x_{ij} + \varepsilon_{ij}$$

$u_{1j}$ 是第 $j$ 班斜率偏離整體斜率 $\beta_1$ 的量。隨機效果現在是二維的:

$$\begin{pmatrix} u_{0j} \\ u_{1j} \end{pmatrix} \sim N\!\left( \begin{pmatrix} 0 \\ 0 \end{pmatrix}, \begin{pmatrix} \tau_0^2 & \tau_{01} \\ \tau_{01} & \tau_1^2 \end{pmatrix} \right)$$

其中 $\tau_1^2$ 是斜率的班級間變異,$\tau_{01}$ 是截距與斜率的共變數(例如:基礎好的班,讀書時數的邊際效益是否較弱)。

固定效果 vs 隨機效果:到底差在哪

這是初學者最常混淆之處。

  • 固定效果:你關心的、要估計具體數值與顯著性的母體參數,如 $\beta_0, \beta_1$。它對「所有班級共通」的部分建模。
  • 隨機效果:你不逐一估計每個班的值,而是假設這些班級偏移來自一個分布 $N(0,\tau^2)$,只估計這個分布的變異數。班級被視為「從更大母體隨機抽出的樣本」。

選擇邏輯:如果這 40 個班級是你研究的全部對象、不打算外推,且班級數很少,可把班級當固定效果(每班一個虛擬變數)。但若你想把結論外推到「這類班級的母體」,且班級數夠多,隨機效果更恰當——它更省參數,且能做收縮估計(後述)。

組內相關係數 ICC:到底有多少變異來自班級

只有截距、沒有任何預測變數的模型稱為空模型(null model)

$$y_{ij} = \beta_0 + u_{0j} + \varepsilon_{ij}$$

由此把總變異拆成兩塊:班級間變異 $\tau_0^2$ 與班級內變異 $\sigma^2$。組內相關係數(ICC) 定義為:

$$\rho = \text{ICC} = \frac{\tau_0^2}{\tau_0^2 + \sigma^2}$$

它回答:「總變異中,有多少比例來自班級之間的差異?」也等於「同一班兩位學生成績的相關係數」。

  • ICC 接近 0:班級幾乎沒差異,巢套結構可忽略,OLS 大致夠用。
  • ICC 偏高(教育資料常見 0.10~0.25):班級差異不可忽視,必須用多層次模型。

ICC 同時是「設計效應(design effect)」的核心——它告訴你獨立性假設被破壞的嚴重程度。

變異數成分分解:模型在解釋什麼

多層次模型的輸出重點不只是迴歸係數,更在於變異數成分(variance components) $\tau_0^2, \tau_1^2, \sigma^2$。加入預測變數後,比較它與空模型的變異數,可算出「層級式 $R^2$」:某個學生層級變數解釋掉多少 $\sigma^2$、某個班級層級變數解釋掉多少 $\tau_0^2$。這讓你能回答「成績差異主要由學生個人因素還是班級因素驅動」這類教育研究的關鍵問題。

帶數字的小範例:算 ICC 與解讀

某校跑空模型,得到:班級間變異 $\tau_0^2 = 36$、班級內變異 $\sigma^2 = 84$(單位:分數的平方)。

$$\text{ICC} = \frac{36}{36 + 84} = \frac{36}{120} = 0.30$$

解讀:學生成績總變異中有 30% 來自班級之間的差異,70% 來自同班學生個別差異。ICC = 0.30 在教育資料中偏高,代表班級脈絡(老師、班風)對成績影響不容忽視,絕不能用 OLS 硬做。

進一步估計設計效應:若每班平均 $n = 25$ 人,

$$\text{DE} = 1 + (n-1)\times\text{ICC} = 1 + 24 \times 0.30 = 8.2$$

意思是:因為巢套,你的有效樣本量只有名目樣本的 $1/8.2$。若名目上有 1000 人,有效資訊量約等於 $1000 / 8.2 \approx 122$ 筆獨立觀測。若忽略這點直接做 OLS,標準誤會被低估約 $\sqrt{8.2} \approx 2.86$ 倍——p 值會錯得離譜。

收縮估計:向整體均值借力

當我們想估計某個班的真實表現時,多層次模型給的不是該班的原始平均,而是收縮(shrinkage)後的估計——它是「該班自己的平均」與「全體大平均」的加權折衷:

$$\hat{u}_{0j} = \lambda_j \,(\bar{y}_j - \beta_0), \qquad \lambda_j = \frac{\tau_0^2}{\tau_0^2 + \sigma^2/n_j}$$

$\lambda_j$ 是收縮因子(介於 0 與 1)。直覺很美:

  • 班級樣本數 $n_j$ 大:$\lambda_j$ 接近 1,資訊充足,估計值接近該班自己的平均。
  • 班級樣本數 $n_j$ 小:$\lambda_j$ 變小,該班均值不可靠,估計值被「拉回」全體大平均。

這就是為什麼一個只有 3 名學生、平均很高的小班,不會被多層次模型評為「全校最強」——它的高分有運氣成分,模型會理性地打折。這是貝氏「向母體借力(borrowing strength)」的精神,能有效降低估計的均方誤差。

跨層次交互作用:班級脈絡如何調節個人效果

多層次模型最強大的應用之一是跨層次交互作用(cross-level interaction):一個班級層級變數,如何調節某個學生層級變數的效果。

例如,假設我們想問:「老師的教學經驗(班級層級 $W_j$)會不會放大讀書時數(學生層級 $x_{ij}$)的效益?」模型寫成:

$$y_{ij} = \beta_0 + \beta_1 x_{ij} + \beta_2 W_j + \beta_3 (x_{ij}\times W_j) + u_{0j} + u_{1j}x_{ij} + \varepsilon_{ij}$$

$\beta_3$ 就是跨層次交互作用項:若顯著為正,代表在資深老師的班級裡,多讀書帶來的進步更大。這正好對應前面「隨機斜率為什麼會因班而異」——跨層次交互作用就是在解釋斜率的班級間變異 $\tau_1^2$ 從何而來。需注意因果推論的限制:除非有實驗或準實驗設計,這類交互作用通常只能解釋為關聯,而非因果。

重點回顧

  • 巢套資料(學生於班級、班級於學校)破壞了 OLS 的獨立性假設,會嚴重低估標準誤、膨脹型一錯誤;多層次模型透過隨機效果正確處理組內相關。
  • ICC 量化「班級間變異占總變異的比例」,是判斷是否需要多層次模型的關鍵指標;教育資料常落在 0.10~0.25。
  • 隨機截距讓每班有自己的基準線;隨機斜率讓預測變數的效果可因班而異;跨層次交互作用用班級層級變數去解釋斜率的差異。
  • 固定效果估計共通的母體參數,隨機效果假設群體偏移來自一個分布、只估其變異數——後者能做收縮估計,對小樣本班級向整體均值借力。
  • 多層次模型同時建模組內與組間關係,可避免生態謬誤與聚合偏誤;報告時應呈現變異數成分分解,而不只是迴歸係數。

深入探討(研究所視角)

REML 為何優於 ML 估計變異數成分

混合模型的參數同時包含固定效果 $\boldsymbol{\beta}$ 與變異數成分 $\boldsymbol{\theta} = (\tau_0^2, \tau_1^2, \tau_{01}, \sigma^2)$。最大概似(ML)估計變異數成分時是偏誤的——它在估 $\boldsymbol{\theta}$ 時沒有扣掉「估計 $\boldsymbol{\beta}$ 所消耗的自由度」,導致變異數被系統性低估。這與樣本變異數用 $n$ 當分母會低估、要改用 $n-1$ 是同一個道理。

受限最大概似(REML, Restricted Maximum Likelihood) 的做法是:先把資料投影到與固定效果設計矩陣 $X$ 的行空間正交的子空間,得到不含 $\boldsymbol{\beta}$ 的「殘差對比(error contrasts)」 $K^\top y$(其中 $K^\top X = 0$),再對這些對比的邊際概似做最大化:

$$\ell_{\text{REML}}(\boldsymbol{\theta}) = -\frac{1}{2}\ln|V| - \frac{1}{2}\ln|X^\top V^{-1} X| - \frac{1}{2}(y - X\hat{\boldsymbol{\beta}})^\top V^{-1}(y - X\hat{\boldsymbol{\beta}})$$

其中 $V = Z G Z^\top + \sigma^2 I$ 是邊際共變數矩陣($Z$ 為隨機效果設計矩陣、$G$ 為隨機效果共變數)。比起 ML 概似,REML 多了 $-\frac{1}{2}\ln|X^\top V^{-1}X|$ 這一項,正是對固定效果自由度的修正。

實務要點:

  • 比較變異數結構(如要不要加隨機斜率)時,用 REML。
  • 比較固定效果結構(不同 $X$)時,不能用 REML 做概似比檢定——因為不同固定效果對應不同的殘差對比空間,REML 概似不可比;此時須改回 ML。
  • 隨機效果係數的「估計」嚴格說是預測,用最佳線性無偏預測(BLUP, Best Linear Unbiased Predictor),其數學形式正是前述收縮估計。

多層次模型 vs GEE:兩種處理相關的哲學

當資料有組內相關時,多層次模型不是唯一選擇。廣義估計方程(GEE, Generalized Estimating Equations) 是另一條路,兩者哲學截然不同:

面向 多層次模型(HLM/混合模型) GEE
取向 subject-specific(條件式) population-averaged(邊際)
對相關的處理 顯式建模隨機效果,相關結構是科學標的 把相關當「干擾」,用 working correlation 矩陣
係數解讀 「同一班內、固定班級偏移下」的效果 「整個母體平均」的效果
隨機效果分布錯設 較敏感(需假設常態) 較穩健(即使 working correlation 設錯,係數仍一致,只要均值模型對)
想得到的東西 變異數成分、收縮預測、跨層次機制 穩健的邊際效果估計

關鍵差異在於:在非線性連結(如 logistic 迴歸)下,HLM 的條件式係數與 GEE 的邊際係數數值不同,前者通常絕對值較大。若研究目的是「了解班級脈絡如何運作、想做收縮預測」,選 HLM;若只想要「對整個學生母體平均而言,某政策的效果多大」、且不在意隨機效果分布是否設對,GEE 配三明治穩健標準誤(sandwich estimator)更省事也更穩健。

對應 Uedu 教育資料的實作觀點

Uedu 平台的學習成效資料天生三層巢套:學生(Cognomics 對話軌跡、Linguomics 語言複雜度)巢套於班級(ClassroomGPT 教室),班級巢套於學校(子網域)。分析「AI 助教互動頻率對學習成效的影響」時,若忽略班級層級,會犯下前述所有錯誤。標準做法是:先跑空模型估 ICC,確認巢套不可忽略;再依研究問題加入學生層級與班級層級變數,視效果是否因班而異決定要不要隨機斜率;最後用 REML 估變異數成分、用 BLUP 做班級層級的收縮預測。需強調的是,這些都是相關性分析——除非搭配實驗或準實驗設計,多層次模型本身不提供因果保證。

AI 共讀助教正在陪你讀:多層次與混合模型(HLM):學生巢套於班級的階層資料分析
嗨!我是這篇文章的共讀助教,只根據〈多層次與混合模型(HLM):學生巢套於班級的階層資料分析〉的內容回答。可以問我「解釋某段」「舉個例子」「出題考我」,或反白文中段落後點下方「解釋選取段落」。