多層次與混合模型（HLM）：學生巢套於班級的階層資料分析

從 ICC、隨機截距與隨機斜率，到收縮估計、REML 與跨層次交互作用，誠實分析教育資料的層級結構

進階 · 約 16 分鐘 ·#多層次模型#HLM#ICC#隨機效果#REML#教育統計

兩個班級的及格率都是七成，能說兩位老師一樣好嗎？

假設甲班與乙班的數學期末及格率都是七成，表面上兩位老師的教學成效不分軒輊。但若甲班學生入學程度落後、乙班則是資優班，這個「七成」背後的意義天差地遠。更麻煩的是：當我們把全校上千名學生丟進一條普通迴歸式，去估計「補習時數對成績的影響」時，模型悄悄假設了每一位學生彼此獨立——可是同一個班的學生共用同一位老師、同一套教材、同一種班級氣氛，他們的成績本來就比跨班學生更相似。忽略這層巢套（nesting）結構，估出來的標準誤會嚴重低估，讓你誤判一個其實不顯著的效果「達到顯著」。

這正是多層次模型（Multilevel Model，又稱階層線性模型 HLM、混合效果模型 Mixed-effects Model）要解決的核心問題：當資料天生具有「學生巢套於班級、班級巢套於學校」的層級結構時，如何誠實地分析它。

多層次與混合模型概念示意圖

為什麼不能假裝資料是獨立的

傳統最小平方迴歸（OLS）有一條關鍵假設：觀測值之間互相獨立。當資料是巢套的，這條假設被破壞。同一班級的學生因共享環境而產生組內相關（intra-class correlation），殘差不再獨立。

後果有兩個方向，都很危險：

標準誤被低估：模型誤以為你有 1000 筆獨立資訊，但若這 1000 人來自 40 個高度同質的班級，有效樣本量遠小於 1000。標準誤偏小、t 值偏大、p 值偏小——你會宣稱一堆假的顯著效果（型一錯誤膨脹）。
層級混淆：班級層級的變數（如老師年資）與學生層級的變數（如學生用功程度）若擠在同一條迴歸，係數的解釋會糾纏不清。

生態謬誤與聚合偏誤

巢套資料還藏著一個經典陷阱。生態謬誤（ecological fallacy） 指用「群體層級」的相關去推論「個人層級」的關係。例如：跨校比較發現「平均家庭收入越高的學校，平均成績越高」，於是推論「個別有錢學生成績較好」——這推論未必成立，因為兩個層級的關係可以完全不同，甚至方向相反（這稱為 Simpson 弔詭）。

反過來，聚合偏誤（aggregation bias） 指把學生層級資料硬聚合成班級平均後再分析，丟掉了組內變異的資訊。多層次模型的價值在於：它同時估計組內（學生間）與組間（班級間）兩種關係，讓你不必在「全部當個人」與「全部當群體」之間二選一。

隨機截距模型：每個班有自己的起點

最基本的多層次模型是隨機截距模型（random intercept model）。設第 $i$ 位學生巢套於第 $j$ 個班級，成績為 $y_{ij}$，個人層級預測變數（如讀書時數）為 $x_{ij}$：

$$y_{ij} = \beta_0 + \beta_1 x_{ij} + u_{0j} + \varepsilon_{ij}$$

其中：

$\beta_0$ 是全體平均截距（固定效果），$\beta_1$ 是讀書時數的固定斜率。
$u_{0j} \sim N(0, \tau_0^2)$ 是第 $j$ 班的隨機截距偏移，代表「這個班整體比平均高或低多少」。
$\varepsilon_{ij} \sim N(0, \sigma^2)$ 是學生層級殘差。

直覺是：每個班級有自己的基準線 $\beta_0 + u_{0j}$，但讀書時數對成績的影響（斜率 $\beta_1$）在所有班級都一樣。$u_{0j}$ 與 $\varepsilon_{ij}$ 假設彼此獨立。

隨機斜率模型：效果在各班強度不同

現實中，讀書時數的「效益」可能因班而異——教學嚴謹的班，多讀一小時進步較多。這時加入隨機斜率（random slope）：

$$y_{ij} = \beta_0 + \beta_1 x_{ij} + u_{0j} + u_{1j} x_{ij} + \varepsilon_{ij}$$

$u_{1j}$ 是第 $j$ 班斜率偏離整體斜率 $\beta_1$ 的量。隨機效果現在是二維的：

$$\begin{pmatrix} u_{0j} \\ u_{1j} \end{pmatrix} \sim N\!\left( \begin{pmatrix} 0 \\ 0 \end{pmatrix}, \begin{pmatrix} \tau_0^2 & \tau_{01} \\ \tau_{01} & \tau_1^2 \end{pmatrix} \right)$$

其中 $\tau_1^2$ 是斜率的班級間變異，$\tau_{01}$ 是截距與斜率的共變數（例如：基礎好的班，讀書時數的邊際效益是否較弱）。

固定效果 vs 隨機效果：到底差在哪

這是初學者最常混淆之處。

固定效果：你關心的、要估計具體數值與顯著性的母體參數，如 $\beta_0, \beta_1$。它對「所有班級共通」的部分建模。
隨機效果：你不逐一估計每個班的值，而是假設這些班級偏移來自一個分布 $N(0,\tau^2)$，只估計這個分布的變異數。班級被視為「從更大母體隨機抽出的樣本」。

選擇邏輯：如果這 40 個班級是你研究的全部對象、不打算外推，且班級數很少，可把班級當固定效果（每班一個虛擬變數）。但若你想把結論外推到「這類班級的母體」，且班級數夠多，隨機效果更恰當——它更省參數，且能做收縮估計（後述）。

組內相關係數 ICC：到底有多少變異來自班級

只有截距、沒有任何預測變數的模型稱為空模型（null model）：

$$y_{ij} = \beta_0 + u_{0j} + \varepsilon_{ij}$$

由此把總變異拆成兩塊：班級間變異 $\tau_0^2$ 與班級內變異 $\sigma^2$。組內相關係數（ICC） 定義為：

$$\rho = \text{ICC} = \frac{\tau_0^2}{\tau_0^2 + \sigma^2}$$

它回答：「總變異中，有多少比例來自班級之間的差異？」也等於「同一班兩位學生成績的相關係數」。

ICC 接近 0：班級幾乎沒差異，巢套結構可忽略，OLS 大致夠用。
ICC 偏高（教育資料常見 0.10～0.25）：班級差異不可忽視，必須用多層次模型。

ICC 同時是「設計效應（design effect）」的核心——它告訴你獨立性假設被破壞的嚴重程度。

變異數成分分解：模型在解釋什麼

多層次模型的輸出重點不只是迴歸係數，更在於變異數成分（variance components） $\tau_0^2, \tau_1^2, \sigma^2$。加入預測變數後，比較它與空模型的變異數，可算出「層級式 $R^2$」：某個學生層級變數解釋掉多少 $\sigma^2$、某個班級層級變數解釋掉多少 $\tau_0^2$。這讓你能回答「成績差異主要由學生個人因素還是班級因素驅動」這類教育研究的關鍵問題。

帶數字的小範例：算 ICC 與解讀

某校跑空模型，得到：班級間變異 $\tau_0^2 = 36$、班級內變異 $\sigma^2 = 84$（單位：分數的平方）。

$$\text{ICC} = \frac{36}{36 + 84} = \frac{36}{120} = 0.30$$

解讀：學生成績總變異中有 30% 來自班級之間的差異，70% 來自同班學生個別差異。ICC = 0.30 在教育資料中偏高，代表班級脈絡（老師、班風）對成績影響不容忽視，絕不能用 OLS 硬做。

進一步估計設計效應：若每班平均 $n = 25$ 人，

$$\text{DE} = 1 + (n-1)\times\text{ICC} = 1 + 24 \times 0.30 = 8.2$$

意思是：因為巢套，你的有效樣本量只有名目樣本的 $1/8.2$。若名目上有 1000 人，有效資訊量約等於 $1000 / 8.2 \approx 122$ 筆獨立觀測。若忽略這點直接做 OLS，標準誤會被低估約 $\sqrt{8.2} \approx 2.86$ 倍——p 值會錯得離譜。

收縮估計：向整體均值借力

當我們想估計某個班的真實表現時，多層次模型給的不是該班的原始平均，而是收縮（shrinkage）後的估計——它是「該班自己的平均」與「全體大平均」的加權折衷：

$$\hat{u}_{0j} = \lambda_j \,(\bar{y}_j - \beta_0), \qquad \lambda_j = \frac{\tau_0^2}{\tau_0^2 + \sigma^2/n_j}$$

$\lambda_j$ 是收縮因子（介於 0 與 1）。直覺很美：

班級樣本數 $n_j$ 大：$\lambda_j$ 接近 1，資訊充足，估計值接近該班自己的平均。
班級樣本數 $n_j$ 小：$\lambda_j$ 變小，該班均值不可靠，估計值被「拉回」全體大平均。

這就是為什麼一個只有 3 名學生、平均很高的小班，不會被多層次模型評為「全校最強」——它的高分有運氣成分，模型會理性地打折。這是貝氏「向母體借力（borrowing strength）」的精神，能有效降低估計的均方誤差。

跨層次交互作用：班級脈絡如何調節個人效果

多層次模型最強大的應用之一是跨層次交互作用（cross-level interaction）：一個班級層級變數，如何調節某個學生層級變數的效果。

例如，假設我們想問：「老師的教學經驗（班級層級 $W_j$）會不會放大讀書時數（學生層級 $x_{ij}$）的效益？」模型寫成：

$$y_{ij} = \beta_0 + \beta_1 x_{ij} + \beta_2 W_j + \beta_3 (x_{ij}\times W_j) + u_{0j} + u_{1j}x_{ij} + \varepsilon_{ij}$$

$\beta_3$ 就是跨層次交互作用項：若顯著為正，代表在資深老師的班級裡，多讀書帶來的進步更大。這正好對應前面「隨機斜率為什麼會因班而異」——跨層次交互作用就是在解釋斜率的班級間變異 $\tau_1^2$ 從何而來。需注意因果推論的限制：除非有實驗或準實驗設計，這類交互作用通常只能解釋為關聯，而非因果。

重點回顧

巢套資料（學生於班級、班級於學校）破壞了 OLS 的獨立性假設，會嚴重低估標準誤、膨脹型一錯誤；多層次模型透過隨機效果正確處理組內相關。
ICC 量化「班級間變異占總變異的比例」，是判斷是否需要多層次模型的關鍵指標；教育資料常落在 0.10～0.25。
隨機截距讓每班有自己的基準線；隨機斜率讓預測變數的效果可因班而異；跨層次交互作用用班級層級變數去解釋斜率的差異。
固定效果估計共通的母體參數，隨機效果假設群體偏移來自一個分布、只估其變異數——後者能做收縮估計，對小樣本班級向整體均值借力。
多層次模型同時建模組內與組間關係，可避免生態謬誤與聚合偏誤；報告時應呈現變異數成分分解，而不只是迴歸係數。

深入探討（研究所視角）

REML 為何優於 ML 估計變異數成分

混合模型的參數同時包含固定效果 $\boldsymbol{\beta}$ 與變異數成分 $\boldsymbol{\theta} = (\tau_0^2, \tau_1^2, \tau_{01}, \sigma^2)$。最大概似（ML）估計變異數成分時是偏誤的——它在估 $\boldsymbol{\theta}$ 時沒有扣掉「估計 $\boldsymbol{\beta}$ 所消耗的自由度」，導致變異數被系統性低估。這與樣本變異數用 $n$ 當分母會低估、要改用 $n-1$ 是同一個道理。

受限最大概似（REML, Restricted Maximum Likelihood） 的做法是：先把資料投影到與固定效果設計矩陣 $X$ 的行空間正交的子空間，得到不含 $\boldsymbol{\beta}$ 的「殘差對比（error contrasts）」 $K^\top y$（其中 $K^\top X = 0$），再對這些對比的邊際概似做最大化：

$$\ell_{\text{REML}}(\boldsymbol{\theta}) = -\frac{1}{2}\ln|V| - \frac{1}{2}\ln|X^\top V^{-1} X| - \frac{1}{2}(y - X\hat{\boldsymbol{\beta}})^\top V^{-1}(y - X\hat{\boldsymbol{\beta}})$$

其中 $V = Z G Z^\top + \sigma^2 I$ 是邊際共變數矩陣（$Z$ 為隨機效果設計矩陣、$G$ 為隨機效果共變數）。比起 ML 概似，REML 多了 $-\frac{1}{2}\ln|X^\top V^{-1}X|$ 這一項，正是對固定效果自由度的修正。

實務要點：

比較變異數結構（如要不要加隨機斜率）時，用 REML。
比較固定效果結構（不同 $X$）時，不能用 REML 做概似比檢定——因為不同固定效果對應不同的殘差對比空間，REML 概似不可比；此時須改回 ML。
隨機效果係數的「估計」嚴格說是預測，用最佳線性無偏預測（BLUP, Best Linear Unbiased Predictor），其數學形式正是前述收縮估計。

多層次模型 vs GEE：兩種處理相關的哲學

當資料有組內相關時，多層次模型不是唯一選擇。廣義估計方程（GEE, Generalized Estimating Equations） 是另一條路，兩者哲學截然不同：

面向	多層次模型（HLM/混合模型）	GEE
取向	subject-specific（條件式）	population-averaged（邊際）
對相關的處理	顯式建模隨機效果，相關結構是科學標的	把相關當「干擾」，用 working correlation 矩陣
係數解讀	「同一班內、固定班級偏移下」的效果	「整個母體平均」的效果
隨機效果分布錯設	較敏感（需假設常態）	較穩健（即使 working correlation 設錯，係數仍一致，只要均值模型對）
想得到的東西	變異數成分、收縮預測、跨層次機制	穩健的邊際效果估計

關鍵差異在於：在非線性連結（如 logistic 迴歸）下，HLM 的條件式係數與 GEE 的邊際係數數值不同，前者通常絕對值較大。若研究目的是「了解班級脈絡如何運作、想做收縮預測」，選 HLM；若只想要「對整個學生母體平均而言，某政策的效果多大」、且不在意隨機效果分布是否設對，GEE 配三明治穩健標準誤（sandwich estimator）更省事也更穩健。

對應 Uedu 教育資料的實作觀點

Uedu 平台的學習成效資料天生三層巢套：學生（Cognomics 對話軌跡、Linguomics 語言複雜度）巢套於班級（ClassroomGPT 教室），班級巢套於學校（子網域）。分析「AI 助教互動頻率對學習成效的影響」時，若忽略班級層級，會犯下前述所有錯誤。標準做法是：先跑空模型估 ICC，確認巢套不可忽略；再依研究問題加入學生層級與班級層級變數，視效果是否因班而異決定要不要隨機斜率；最後用 REML 估變異數成分、用 BLUP 做班級層級的收縮預測。需強調的是，這些都是相關性分析——除非搭配實驗或準實驗設計，多層次模型本身不提供因果保證。

廣義線性混合模型與置中抉擇：當結果不是分數、效果分兩層的進階多層次分析

--

1

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings