結構方程模型 SEM(進階):序位指標估計、測量恆等性與潛在成長模型
當問卷是李克特量表、當你想跨組比較、當你想追蹤時間變化——WLSMV、measurement invariance、LGCM 與修飾指標的雙面刃
當問卷是李克特 5 點量表時,你的 SEM 其實在偷偷說謊嗎?
入門篇裡,我們把「動機 → 投入 → 成效」這條鏈估得乾淨俐落,預設背後一切都服從多元常態(multivariate normality),最大概似(ML)估計也順理成章。但翻開任何一份教育問卷,現實是:題目幾乎都是「非常不同意/不同意/普通/同意/非常同意」這種有序類別(ordered categorical)的李克特量表。把 1、2、3、4、5 這種序位分數當成連續、常態的實數丟進 ML,等於假裝「同意」到「非常同意」的心理距離,和「普通」到「同意」一模一樣——這個假設多半不成立。
當類別數少(≤ 5)、又嚴重偏態時,硬套 ML 會帶來三個後果:路徑係數被低估、標準誤被低估(於是你以為顯著、其實不然)、卡方與適配指標全部失真。這篇進階文章要處理的,正是入門篇刻意略過的「估計層」與「設計層」問題:當資料不乖、當你想跨組比較、當你想追蹤時間變化時,SEM 該怎麼正確地做。我們會走過序位指標的正確估計、測量恆等性(measurement invariance)、潛在成長模型(latent growth curve model),以及修飾指標(modification index)這把雙面刃。

序位指標的正解:多分相關與 WLSMV
要誠實對待序位資料,關鍵概念是多分相關(polychoric correlation)。它的假設是:每個觀測到的類別分數背後,藏著一個連續、常態分配的潛在反應傾向 $x^{*}$,我們只是透過若干個閾值(threshold)$\tau_1 < \tau_2 < \dots$ 把這條連續軸切成幾段,落在哪一段就回報哪個類別。
$$ x = k \quad \text{若} \quad \tau_{k-1} < x^{*} \le \tau_{k} $$
多分相關估計的,是兩個潛在 $x^{*}$、$y^{*}$ 之間的相關,而不是兩串序位整數之間的 Pearson 相關。把整個模型建立在「多分相關矩陣 + 閾值」之上,就還原了序位資料真正的測量本質。
接著要換估計法。處理序位指標的事實標準是 WLSMV(mean- and variance-adjusted weighted least squares,平減與變異調整加權最小平方),又稱 robust DWLS。它的精神是:先估出多分相關與其漸近共變數矩陣 $W$,再以 $W^{-1}$ 加權去最小化適配函數
$$ F_{WLS} = (s - \sigma(\theta))^{\top}\, W^{-1}\, (s - \sigma(\theta)) $$
其中 $s$ 是樣本多分相關(向量化後)、$\sigma(\theta)$ 是模型隱含的對應值。它不要求觀測指標常態,只要求潛在 $x^{*}$ 常態,這對序位資料合理得多。
實務速記:連續且近常態的指標用 ML(或對偏態用 robust ML,即 MLR/Satorra–Bentler 校正);序位或二元指標用 WLSMV。很多人不假思索全用 ML,是 SEM 最常見、也最隱形的錯誤。
測量恆等性:你拿來比較的,真的是同一把尺嗎?
假設你想比較「男生與女生的學習動機是否有差」,或「實驗組與對照組的投入是否不同」。在你比較潛在變數的平均數之前,必須先回答一個更根本的問題:這把測量動機的「尺」,在兩組人身上刻度一樣嗎?如果同一道題在男生和女生身上對「動機」的反映方式根本不同,那比較出來的差異,可能只是測量工具的偏差,而非構念本身的差異。這就是測量恆等性(measurement invariance,又稱因素恆等性)要檢驗的事,做法是一層層加上等同限制(equality constraint),逐級比較:
| 層級 | 跨組固定相等的參數 | 通過後可宣稱 |
|---|---|---|
| 形構恆等(configural) | 只固定「哪些題歸哪個因素」的結構 | 各組有相同的因素型態 |
| 弱恆等/計量恆等(metric / weak) | 因素負荷量 $\lambda$ | 構念對指標的反映強度相同,可比較相關與迴歸係數 |
| 強恆等/純量恆等(scalar / strong) | $\lambda$ + 截距/閾值 $\tau$ | 可比較潛在平均數 |
| 嚴格恆等(strict) | $\lambda$ + $\tau$ + 殘差變異 $\theta_\delta$ | 連測量誤差都相同(較少要求) |
判準是逐級檢驗模型適配是否「顯著變差」。傳統用卡方差異檢定 $\Delta\chi^2$,但它同樣對樣本數敏感,因此 Cheung & Rensvold(2002)建議改看 $\Delta\text{CFI}$:若加上一層限制後 CFI 下降不超過 $0.01$,就認定該層恆等成立。達到純量恆等,比較潛在平均數才站得住腳;只達到計量恆等,就只能比較係數與相關,不能比平均數。在跨文化、跨校、跨性別的教育研究裡,這一步常被略過,但它其實是後續一切比較的合法性前提。
看一個例子:略過恆等性檢驗會出什麼錯
某研究想宣稱「線上組學生的『學習自我效能』顯著高於實體組」。研究者直接把兩組各自的效能量表加總、跑 t 檢定,得到 $p < .01$,興高采烈下了結論。
問題出在哪?假設量表有一題是「我能順利使用課程平台完成作業」。對線上組,這題高度反映「自我效能」(負荷量 $\lambda = 0.8$);但對實體組,平台幾乎用不到,這題對效能的反映很弱($\lambda = 0.3$),甚至測到的是別的東西(電腦熟悉度)。此時:
- 計量恆等不成立(兩組 $\lambda$ 差很多)→ 連「效能」這個構念在兩組是不是同一回事都成問題。
- 即使負荷量相同,若這題在實體組的截距系統性偏低(純量不恆等),加總分數的組間差有一部分純粹來自這道題的偏差,而非真正的效能差異。
正確做法是先做多組 CFA:若卡在純量恆等過不了,可改採部分恆等(partial invariance)——放鬆那一兩道有問題的題目的限制,其餘維持相等,再以此模型比較潛在平均數。略過這一步直接比加總分,等於拿兩把刻度不同的尺量身高還宣稱誰高,結論隨時可能翻盤。
潛在成長模型:把「時間」變成潛在變數
入門篇的 SEM 都是橫斷面(cross-sectional):一個時間點、一批人。但教育最關心的往往是變化:學生的成效在一學期內怎麼成長?成長的起點與速度,能不能被別的變數預測?潛在成長曲線模型(latent growth curve model, LGCM)把同一批人在多個時間點的重複測量,巧妙地塞進 SEM 框架,把「成長」本身估計成潛在變數。
它的核心轉念是:把每個時間點的觀測分數 $y_{t}$,當成兩個潛在因素的線性組合——截距因素(intercept,記為 $I$,代表起始水準)與斜率因素(slope,記為 $S$,代表變化速度):
$$ y_{ti} = I_i + \lambda_t\, S_i + \varepsilon_{ti} $$
關鍵在於負荷量 $\lambda_t$ 不是估出來的,而是事先固定來編碼時間。例如四次等距測量,把截距因素對四個指標的負荷量全固定為 1(人人起點都「整份」算進去),把斜率因素的負荷量固定為 $0, 1, 2, 3$(線性成長的時間碼)。於是:
- $I$ 的平均數 = 全體在 $t=0$ 的平均起始水準;$I$ 的變異數 = 學生起點的個別差異。
- $S$ 的平均數 = 全體平均每期成長量;$S$ 的變異數 = 學生成長速度的個別差異(有人進步快、有人慢)。
- $I$ 與 $S$ 的共變數 = 「起點高的人是否成長也快(或反而慢)」。
更強的是,這套框架天生就是 SEM,所以你可以再加一個外生變數(如「課前先備知識」)去預測 $I$ 和 $S$:先備知識高的人是不是起點較高?成長是否較平緩(天花板效應)?這在傳統重複量數 ANOVA 裡很難一次回答。
動手算一下:解讀一組成長參數
假設我們對某班學生做了四次月考($t = 0,1,2,3$,已固定斜率負荷量),估出潛在成長模型如下:
- 截距因素 $I$:平均數 $= 60$,變異數 $= 100$
- 斜率因素 $S$:平均數 $= 5$,變異數 $= 9$
- $I$ 與 $S$ 的共變數 $= -12$
逐項解讀:
第一,平均軌跡。起始平均 $60$ 分,平均每期成長 $5$ 分,所以第三次月考的全班預期分數為
$$ \hat{y}_{t=3} = 60 + 5 \times 3 = 75 \text{ 分} $$
第二,個別差異。$I$ 的變異數 $100$ 代表起點的標準差約 $\sqrt{100}=10$ 分,學生起跑點差距不小;$S$ 的變異數 $9$(標準差 $3$)代表成長速度也因人而異——有人每期約成長 $5+3=8$ 分,有人僅約 $5-3=2$ 分。若 $S$ 的變異數接近 0,才代表「大家成長得差不多」。
第三,起點與成長的關係。把共變數轉成相關:
$$ r_{IS} = \frac{-12}{\sqrt{100}\,\sqrt{9}} = \frac{-12}{10 \times 3} = -0.40 $$
負相關代表起點越高的學生,成長越慢——這正是教育上常見的「補償效應/天花板效應」:低分群還有很大進步空間,高分群已接近上限。一個 $-0.40$ 的中等負相關,會讓研究者進一步追問:是教學設計幫到了後段班,還是高分群被既有課程綁住了?這種「平均趨勢 + 個別差異 + 兩者關聯」三合一的洞察,正是 LGCM 勝過只看班級平均分變化的地方。
修飾指標:救命的提示,還是過度適配的陷阱?
當模型適配不佳,軟體會吐出修飾指標(modification index, MI):對每一個目前被固定為 0 的參數(例如某兩題殘差之間的相關、某題對另一因素的交叉負荷),預估「如果放開它,卡方大約會下降多少」。MI 越大,放開該參數對適配的「幫助」越大。很多人看到 MI 就照單全收、一個個放開,直到適配指標漂亮為止——這是 SEM 最危險的誘惑。
問題在於:MI 是資料驅動的事後建議,不是理論。逐一追著 MI 修改模型,本質是對同一份資料反覆探勘(data dredging),會把樣本裡的隨機雜訊當成結構去擬合,導致過度適配(overfitting):模型在這份資料上很美,換一份新資料就垮。MacCallum 等人的模擬早已顯示,靠 MI 一路改出來的模型,跨樣本複現率很低。
正確的態度是:
- MI 只是診斷線索,不是修改授權。放開任何參數前,先問「這在理論上講得通嗎」。
- 最常見、也最可被接受的,是同一構念內、措辭高度相近的兩題之間的殘差相關(如「我喜歡這門課」與「我很享受這門課」)——它反映的是題目用字重疊,而非構念結構錯誤,放開有實質理由。
- 反之,若 MI 建議某題「交叉負荷」到另一個本不相干的因素,多半是測量模型設計有問題,該回去檢討量表,而不是硬加一條路徑掩蓋。
- 任何由 MI 驅動的修改,都應在論文中誠實揭露,並最好在獨立的驗證樣本(或交叉驗證)上重新確認。
一句話:MI 救得了適配數字,救不了模型的可複現性。把它當醫師的「驗血報告」——提供線索,但診斷與處方仍須回到理論這位主治醫師手上。
重點回顧
- 李克特序位指標不該硬套 ML:應建立在多分相關之上、改用 WLSMV 估計,否則路徑與標準誤都會失真。
- 跨組比較前必須先檢驗測量恆等性:達計量恆等才能比係數,達純量恆等才能比潛在平均數;判準看 $\Delta\text{CFI} \le 0.01$ 而非只靠 $\Delta\chi^2$。
- 潛在成長模型把截距與斜率估成潛在變數,一次給出平均軌跡、個別差異、以及「起點 vs 成長速度」的關聯,遠勝只看班平均。
- 修飾指標是資料驅動的診斷線索,不是修改授權;無理論支持地追逐 MI 會造成過度適配與低複現性。
- 估計層(資料分配)與設計層(恆等性、縱貫結構)的正確性,與入門篇談的模型設定同等重要。
深入探討(研究所視角)
全訊息 vs 有限訊息估計。 入門篇的 ML 屬於全訊息估計(full-information):它一次擬合整個模型隱含的共變數矩陣 $\Sigma(\theta)$,任何一處設定錯誤都會透過 $\Sigma^{-1}$ 把偏誤「傳染」到全模型的所有參數。WLSMV 雖以多分相關為基礎,本質仍是擬合整個(加權的)相關結構。與之相對的是有限訊息估計(limited-information),代表是 Bollen 的兩階段最小平方(2SLS for SEM):它把模型拆成方程逐一估計,僅用各方程相關的工具變數。代價是效率較低(不像 ML 達到 Cramér–Rao 下界),好處是穩健性——一條方程設定錯誤,不會像全訊息法那樣污染其餘方程的估計。當模型某局部可能設錯、或樣本偏離常態時,有限訊息法是重要的敏感度分析工具:若全訊息與有限訊息結果分歧很大,通常意味著模型某處設定有誤。
WLSMV 的「平減與變異調整」到底調了什麼。 純粹的 WLS(ADF)需要估計並反轉完整的權重矩陣 $W$,其維度隨指標數平方膨脹,小樣本下 $W$ 的估計極不穩定,導致估計崩潰——這是 ADF 在實務上幾乎不可用的原因。WLSMV 的關鍵取巧是:估計參數時只用 $W$ 的對角元素(即 diagonally weighted,DWLS),大幅降低對樣本的需求;但在計算標準誤與卡方時,再用完整的 $W$ 做穩健校正。所謂「mean- and variance-adjusted」,指的是對卡方統計量同時校正其期望值(mean)與變異數(variance),使其在序位資料下的參考分配近似正確(類似 Satorra–Bentler 之於連續資料的 robust ML)。這也是為什麼 WLSMV 的卡方自由度常是非整數——它是經調整後的近似量,不能直接拿去做傳統卡方差異檢定;做巢狀模型比較時須改用 DIFFTEST 一類專門的校正程序。
等價模型與因果方向的不可辨識性,在縱貫設計下的部分鬆綁。 入門篇提到橫斷面 SEM 有等價模型問題(同一共變數矩陣可被反向模型同等適配)。縱貫資料能部分(但非完全)緩解:藉由時間先後,交叉延宕(cross-lagged panel)模型可區分「$T_1$ 動機預測 $T_2$ 投入」與「$T_1$ 投入預測 $T_2$ 動機」——時間順序排除了部分反向路徑。但要小心,傳統交叉延宕面板模型混淆了「個體間」與「個體內」變異,近年的 RI-CLPM(random-intercept cross-lagged panel model)藉由加入一個隨機截距,把穩定的個體間差異分離出來,才較乾淨地估計個體內的跨時間互相影響。在 Uedu 這類能蒐集多時間點學習歷程的平台上,從橫斷 SEM 走向 LGCM 與 RI-CLPM,是把「相關證據」往「機制證據」推進一步的關鍵設計選擇——但無論模型多精緻,「適配良好」始終只代表資料不反駁此模型,而非證明其為真。這份對假設的誠實,在縱貫分析裡同樣不可或缺。