結構方程模型 SEM（進階）：序位指標估計、測量恆等性與潛在成長模型

當問卷是李克特量表、當你想跨組比較、當你想追蹤時間變化——WLSMV、measurement invariance、LGCM 與修飾指標的雙面刃

進階 · 約 16 分鐘 ·#結構方程模型#WLSMV#測量恆等性#潛在成長模型#修飾指標#心理計量

當問卷是李克特 5 點量表時，你的 SEM 其實在偷偷說謊嗎？

入門篇裡，我們把「動機 → 投入 → 成效」這條鏈估得乾淨俐落，預設背後一切都服從多元常態（multivariate normality），最大概似（ML）估計也順理成章。但翻開任何一份教育問卷，現實是：題目幾乎都是「非常不同意／不同意／普通／同意／非常同意」這種有序類別（ordered categorical）的李克特量表。把 1、2、3、4、5 這種序位分數當成連續、常態的實數丟進 ML，等於假裝「同意」到「非常同意」的心理距離，和「普通」到「同意」一模一樣——這個假設多半不成立。

當類別數少（≤ 5）、又嚴重偏態時，硬套 ML 會帶來三個後果：路徑係數被低估、標準誤被低估（於是你以為顯著、其實不然）、卡方與適配指標全部失真。這篇進階文章要處理的，正是入門篇刻意略過的「估計層」與「設計層」問題：當資料不乖、當你想跨組比較、當你想追蹤時間變化時，SEM 該怎麼正確地做。我們會走過序位指標的正確估計、測量恆等性（measurement invariance）、潛在成長模型（latent growth curve model），以及修飾指標（modification index）這把雙面刃。

結構方程模型 SEM進階概念示意圖

序位指標的正解：多分相關與 WLSMV

要誠實對待序位資料，關鍵概念是多分相關（polychoric correlation）。它的假設是：每個觀測到的類別分數背後，藏著一個連續、常態分配的潛在反應傾向 $x^{*}$，我們只是透過若干個閾值（threshold）$\tau_1 < \tau_2 < \dots$ 把這條連續軸切成幾段，落在哪一段就回報哪個類別。

$$ x = k \quad \text{若} \quad \tau_{k-1} < x^{*} \le \tau_{k} $$

多分相關估計的，是兩個潛在 $x^{*}$、$y^{*}$ 之間的相關，而不是兩串序位整數之間的 Pearson 相關。把整個模型建立在「多分相關矩陣 + 閾值」之上，就還原了序位資料真正的測量本質。

接著要換估計法。處理序位指標的事實標準是 WLSMV（mean- and variance-adjusted weighted least squares，平減與變異調整加權最小平方），又稱 robust DWLS。它的精神是：先估出多分相關與其漸近共變數矩陣 $W$，再以 $W^{-1}$ 加權去最小化適配函數

$$ F_{WLS} = (s - \sigma(\theta))^{\top}\, W^{-1}\, (s - \sigma(\theta)) $$

其中 $s$ 是樣本多分相關（向量化後）、$\sigma(\theta)$ 是模型隱含的對應值。它不要求觀測指標常態，只要求潛在 $x^{*}$ 常態，這對序位資料合理得多。

實務速記：連續且近常態的指標用 ML（或對偏態用 robust ML，即 MLR/Satorra–Bentler 校正）；序位或二元指標用 WLSMV。很多人不假思索全用 ML，是 SEM 最常見、也最隱形的錯誤。

測量恆等性：你拿來比較的，真的是同一把尺嗎？

假設你想比較「男生與女生的學習動機是否有差」，或「實驗組與對照組的投入是否不同」。在你比較潛在變數的平均數之前，必須先回答一個更根本的問題：這把測量動機的「尺」，在兩組人身上刻度一樣嗎？如果同一道題在男生和女生身上對「動機」的反映方式根本不同，那比較出來的差異，可能只是測量工具的偏差，而非構念本身的差異。這就是測量恆等性（measurement invariance，又稱因素恆等性）要檢驗的事，做法是一層層加上等同限制（equality constraint），逐級比較：

層級	跨組固定相等的參數	通過後可宣稱
形構恆等（configural）	只固定「哪些題歸哪個因素」的結構	各組有相同的因素型態
弱恆等／計量恆等（metric / weak）	因素負荷量 $\lambda$	構念對指標的反映強度相同，可比較相關與迴歸係數
強恆等／純量恆等（scalar / strong）	$\lambda$ + 截距／閾值 $\tau$	可比較潛在平均數
嚴格恆等（strict）	$\lambda$ + $\tau$ + 殘差變異 $\theta_\delta$	連測量誤差都相同（較少要求）

判準是逐級檢驗模型適配是否「顯著變差」。傳統用卡方差異檢定 $\Delta\chi^2$，但它同樣對樣本數敏感，因此 Cheung & Rensvold（2002）建議改看 $\Delta\text{CFI}$：若加上一層限制後 CFI 下降不超過 $0.01$，就認定該層恆等成立。達到純量恆等，比較潛在平均數才站得住腳；只達到計量恆等，就只能比較係數與相關，不能比平均數。在跨文化、跨校、跨性別的教育研究裡，這一步常被略過，但它其實是後續一切比較的合法性前提。

看一個例子：略過恆等性檢驗會出什麼錯

某研究想宣稱「線上組學生的『學習自我效能』顯著高於實體組」。研究者直接把兩組各自的效能量表加總、跑 t 檢定，得到 $p < .01$，興高采烈下了結論。

問題出在哪？假設量表有一題是「我能順利使用課程平台完成作業」。對線上組，這題高度反映「自我效能」（負荷量 $\lambda = 0.8$）；但對實體組，平台幾乎用不到，這題對效能的反映很弱（$\lambda = 0.3$），甚至測到的是別的東西（電腦熟悉度）。此時：

計量恆等不成立（兩組 $\lambda$ 差很多）→ 連「效能」這個構念在兩組是不是同一回事都成問題。
即使負荷量相同，若這題在實體組的截距系統性偏低（純量不恆等），加總分數的組間差有一部分純粹來自這道題的偏差，而非真正的效能差異。

正確做法是先做多組 CFA：若卡在純量恆等過不了，可改採部分恆等（partial invariance）——放鬆那一兩道有問題的題目的限制，其餘維持相等，再以此模型比較潛在平均數。略過這一步直接比加總分，等於拿兩把刻度不同的尺量身高還宣稱誰高，結論隨時可能翻盤。

潛在成長模型：把「時間」變成潛在變數

入門篇的 SEM 都是橫斷面（cross-sectional）：一個時間點、一批人。但教育最關心的往往是變化：學生的成效在一學期內怎麼成長？成長的起點與速度，能不能被別的變數預測？潛在成長曲線模型（latent growth curve model, LGCM）把同一批人在多個時間點的重複測量，巧妙地塞進 SEM 框架，把「成長」本身估計成潛在變數。

它的核心轉念是：把每個時間點的觀測分數 $y_{t}$，當成兩個潛在因素的線性組合——截距因素（intercept，記為 $I$，代表起始水準）與斜率因素（slope，記為 $S$，代表變化速度）：

$$ y_{ti} = I_i + \lambda_t\, S_i + \varepsilon_{ti} $$

關鍵在於負荷量 $\lambda_t$ 不是估出來的，而是事先固定來編碼時間。例如四次等距測量，把截距因素對四個指標的負荷量全固定為 1（人人起點都「整份」算進去），把斜率因素的負荷量固定為 $0, 1, 2, 3$（線性成長的時間碼）。於是：

$I$ 的平均數 = 全體在 $t=0$ 的平均起始水準；$I$ 的變異數 = 學生起點的個別差異。
$S$ 的平均數 = 全體平均每期成長量；$S$ 的變異數 = 學生成長速度的個別差異（有人進步快、有人慢）。
$I$ 與 $S$ 的共變數 = 「起點高的人是否成長也快（或反而慢）」。

更強的是，這套框架天生就是 SEM，所以你可以再加一個外生變數（如「課前先備知識」）去預測 $I$ 和 $S$：先備知識高的人是不是起點較高？成長是否較平緩（天花板效應）？這在傳統重複量數 ANOVA 裡很難一次回答。

動手算一下：解讀一組成長參數

假設我們對某班學生做了四次月考（$t = 0,1,2,3$，已固定斜率負荷量），估出潛在成長模型如下：

截距因素 $I$：平均數 $= 60$，變異數 $= 100$
斜率因素 $S$：平均數 $= 5$，變異數 $= 9$
$I$ 與 $S$ 的共變數 $= -12$

逐項解讀：

第一，平均軌跡。起始平均 $60$ 分，平均每期成長 $5$ 分，所以第三次月考的全班預期分數為

$$ \hat{y}_{t=3} = 60 + 5 \times 3 = 75 \text{ 分} $$

第二，個別差異。$I$ 的變異數 $100$ 代表起點的標準差約 $\sqrt{100}=10$ 分，學生起跑點差距不小；$S$ 的變異數 $9$（標準差 $3$）代表成長速度也因人而異——有人每期約成長 $5+3=8$ 分，有人僅約 $5-3=2$ 分。若 $S$ 的變異數接近 0，才代表「大家成長得差不多」。

第三，起點與成長的關係。把共變數轉成相關：

$$ r_{IS} = \frac{-12}{\sqrt{100}\,\sqrt{9}} = \frac{-12}{10 \times 3} = -0.40 $$

負相關代表起點越高的學生，成長越慢——這正是教育上常見的「補償效應／天花板效應」：低分群還有很大進步空間，高分群已接近上限。一個 $-0.40$ 的中等負相關，會讓研究者進一步追問：是教學設計幫到了後段班，還是高分群被既有課程綁住了？這種「平均趨勢 + 個別差異 + 兩者關聯」三合一的洞察，正是 LGCM 勝過只看班級平均分變化的地方。

修飾指標：救命的提示，還是過度適配的陷阱？

當模型適配不佳，軟體會吐出修飾指標（modification index, MI）：對每一個目前被固定為 0 的參數（例如某兩題殘差之間的相關、某題對另一因素的交叉負荷），預估「如果放開它，卡方大約會下降多少」。MI 越大，放開該參數對適配的「幫助」越大。很多人看到 MI 就照單全收、一個個放開，直到適配指標漂亮為止——這是 SEM 最危險的誘惑。

問題在於：MI 是資料驅動的事後建議，不是理論。逐一追著 MI 修改模型，本質是對同一份資料反覆探勘（data dredging），會把樣本裡的隨機雜訊當成結構去擬合，導致過度適配（overfitting）：模型在這份資料上很美，換一份新資料就垮。MacCallum 等人的模擬早已顯示，靠 MI 一路改出來的模型，跨樣本複現率很低。

正確的態度是：

MI 只是診斷線索，不是修改授權。放開任何參數前，先問「這在理論上講得通嗎」。
最常見、也最可被接受的，是同一構念內、措辭高度相近的兩題之間的殘差相關（如「我喜歡這門課」與「我很享受這門課」）——它反映的是題目用字重疊，而非構念結構錯誤，放開有實質理由。
反之，若 MI 建議某題「交叉負荷」到另一個本不相干的因素，多半是測量模型設計有問題，該回去檢討量表，而不是硬加一條路徑掩蓋。
任何由 MI 驅動的修改，都應在論文中誠實揭露，並最好在獨立的驗證樣本（或交叉驗證）上重新確認。

一句話：MI 救得了適配數字，救不了模型的可複現性。把它當醫師的「驗血報告」——提供線索，但診斷與處方仍須回到理論這位主治醫師手上。

重點回顧

李克特序位指標不該硬套 ML：應建立在多分相關之上、改用 WLSMV 估計，否則路徑與標準誤都會失真。
跨組比較前必須先檢驗測量恆等性：達計量恆等才能比係數，達純量恆等才能比潛在平均數；判準看 $\Delta\text{CFI} \le 0.01$ 而非只靠 $\Delta\chi^2$。
潛在成長模型把截距與斜率估成潛在變數，一次給出平均軌跡、個別差異、以及「起點 vs 成長速度」的關聯，遠勝只看班平均。
修飾指標是資料驅動的診斷線索，不是修改授權；無理論支持地追逐 MI 會造成過度適配與低複現性。
估計層（資料分配）與設計層（恆等性、縱貫結構）的正確性，與入門篇談的模型設定同等重要。

深入探討（研究所視角）

全訊息 vs 有限訊息估計。 入門篇的 ML 屬於全訊息估計（full-information）：它一次擬合整個模型隱含的共變數矩陣 $\Sigma(\theta)$，任何一處設定錯誤都會透過 $\Sigma^{-1}$ 把偏誤「傳染」到全模型的所有參數。WLSMV 雖以多分相關為基礎，本質仍是擬合整個（加權的）相關結構。與之相對的是有限訊息估計（limited-information），代表是 Bollen 的兩階段最小平方（2SLS for SEM）：它把模型拆成方程逐一估計，僅用各方程相關的工具變數。代價是效率較低（不像 ML 達到 Cramér–Rao 下界），好處是穩健性——一條方程設定錯誤，不會像全訊息法那樣污染其餘方程的估計。當模型某局部可能設錯、或樣本偏離常態時，有限訊息法是重要的敏感度分析工具：若全訊息與有限訊息結果分歧很大，通常意味著模型某處設定有誤。

WLSMV 的「平減與變異調整」到底調了什麼。 純粹的 WLS（ADF）需要估計並反轉完整的權重矩陣 $W$，其維度隨指標數平方膨脹，小樣本下 $W$ 的估計極不穩定，導致估計崩潰——這是 ADF 在實務上幾乎不可用的原因。WLSMV 的關鍵取巧是：估計參數時只用 $W$ 的對角元素（即 diagonally weighted，DWLS），大幅降低對樣本的需求；但在計算標準誤與卡方時，再用完整的 $W$ 做穩健校正。所謂「mean- and variance-adjusted」，指的是對卡方統計量同時校正其期望值（mean）與變異數（variance），使其在序位資料下的參考分配近似正確（類似 Satorra–Bentler 之於連續資料的 robust ML）。這也是為什麼 WLSMV 的卡方自由度常是非整數——它是經調整後的近似量，不能直接拿去做傳統卡方差異檢定；做巢狀模型比較時須改用 DIFFTEST 一類專門的校正程序。

等價模型與因果方向的不可辨識性，在縱貫設計下的部分鬆綁。 入門篇提到橫斷面 SEM 有等價模型問題（同一共變數矩陣可被反向模型同等適配）。縱貫資料能部分（但非完全）緩解：藉由時間先後，交叉延宕（cross-lagged panel）模型可區分「$T_1$ 動機預測 $T_2$ 投入」與「$T_1$ 投入預測 $T_2$ 動機」——時間順序排除了部分反向路徑。但要小心，傳統交叉延宕面板模型混淆了「個體間」與「個體內」變異，近年的 RI-CLPM（random-intercept cross-lagged panel model）藉由加入一個隨機截距，把穩定的個體間差異分離出來，才較乾淨地估計個體內的跨時間互相影響。在 Uedu 這類能蒐集多時間點學習歷程的平台上，從橫斷 SEM 走向 LGCM 與 RI-CLPM，是把「相關證據」往「機制證據」推進一步的關鍵設計選擇——但無論模型多精緻，「適配良好」始終只代表資料不反駁此模型，而非證明其為真。這份對假設的誠實，在縱貫分析裡同樣不可或缺。

← 上一篇

結構方程模型（SEM）：潛在變數、路徑分析與中介效果

--

1

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings