Home
探索 Uedu
學生控制台
註冊會員/登入
研究知情同意中心
教師控制台
課程設定
支援與訊息
Uptime 數據

UeduGPTs

--

Jupyters

2

UG26 CISOSE26
臺北 AQI 26 · 臺中 AQI 19 · 臺南 AQI 18 · 高雄 AQI 17

AI 回覆桌面通知

AI 助教回覆完成時顯示桌面通知

聊天訊息通知

同學在討論區發送訊息時通知

聲音通知

每當有新通知時播放提示音

結構方程模型 SEM

結構方程模型 SEM(進階):序位指標估計、測量恆等性與潛在成長模型

當問卷是李克特量表、當你想跨組比較、當你想追蹤時間變化——WLSMV、measurement invariance、LGCM 與修飾指標的雙面刃

當問卷是李克特 5 點量表時,你的 SEM 其實在偷偷說謊嗎?

入門篇裡,我們把「動機 → 投入 → 成效」這條鏈估得乾淨俐落,預設背後一切都服從多元常態(multivariate normality),最大概似(ML)估計也順理成章。但翻開任何一份教育問卷,現實是:題目幾乎都是「非常不同意/不同意/普通/同意/非常同意」這種有序類別(ordered categorical)的李克特量表。把 1、2、3、4、5 這種序位分數當成連續、常態的實數丟進 ML,等於假裝「同意」到「非常同意」的心理距離,和「普通」到「同意」一模一樣——這個假設多半不成立。

當類別數少(≤ 5)、又嚴重偏態時,硬套 ML 會帶來三個後果:路徑係數被低估、標準誤被低估(於是你以為顯著、其實不然)、卡方與適配指標全部失真。這篇進階文章要處理的,正是入門篇刻意略過的「估計層」與「設計層」問題:當資料不乖、當你想跨組比較、當你想追蹤時間變化時,SEM 該怎麼正確地做。我們會走過序位指標的正確估計、測量恆等性(measurement invariance)、潛在成長模型(latent growth curve model),以及修飾指標(modification index)這把雙面刃。

結構方程模型 SEM進階概念示意圖

序位指標的正解:多分相關與 WLSMV

要誠實對待序位資料,關鍵概念是多分相關(polychoric correlation)。它的假設是:每個觀測到的類別分數背後,藏著一個連續、常態分配的潛在反應傾向 $x^{*}$,我們只是透過若干個閾值(threshold)$\tau_1 < \tau_2 < \dots$ 把這條連續軸切成幾段,落在哪一段就回報哪個類別。

$$ x = k \quad \text{若} \quad \tau_{k-1} < x^{*} \le \tau_{k} $$

多分相關估計的,是兩個潛在 $x^{*}$、$y^{*}$ 之間的相關,而不是兩串序位整數之間的 Pearson 相關。把整個模型建立在「多分相關矩陣 + 閾值」之上,就還原了序位資料真正的測量本質。

接著要換估計法。處理序位指標的事實標準是 WLSMV(mean- and variance-adjusted weighted least squares,平減與變異調整加權最小平方),又稱 robust DWLS。它的精神是:先估出多分相關與其漸近共變數矩陣 $W$,再以 $W^{-1}$ 加權去最小化適配函數

$$ F_{WLS} = (s - \sigma(\theta))^{\top}\, W^{-1}\, (s - \sigma(\theta)) $$

其中 $s$ 是樣本多分相關(向量化後)、$\sigma(\theta)$ 是模型隱含的對應值。它不要求觀測指標常態,只要求潛在 $x^{*}$ 常態,這對序位資料合理得多。

實務速記:連續且近常態的指標用 ML(或對偏態用 robust ML,即 MLR/Satorra–Bentler 校正);序位或二元指標用 WLSMV。很多人不假思索全用 ML,是 SEM 最常見、也最隱形的錯誤。

測量恆等性:你拿來比較的,真的是同一把尺嗎?

假設你想比較「男生與女生的學習動機是否有差」,或「實驗組與對照組的投入是否不同」。在你比較潛在變數的平均數之前,必須先回答一個更根本的問題:這把測量動機的「尺」,在兩組人身上刻度一樣嗎?如果同一道題在男生和女生身上對「動機」的反映方式根本不同,那比較出來的差異,可能只是測量工具的偏差,而非構念本身的差異。這就是測量恆等性(measurement invariance,又稱因素恆等性)要檢驗的事,做法是一層層加上等同限制(equality constraint),逐級比較:

層級 跨組固定相等的參數 通過後可宣稱
形構恆等(configural) 只固定「哪些題歸哪個因素」的結構 各組有相同的因素型態
弱恆等/計量恆等(metric / weak) 因素負荷量 $\lambda$ 構念對指標的反映強度相同,可比較相關與迴歸係數
強恆等/純量恆等(scalar / strong) $\lambda$ + 截距/閾值 $\tau$ 可比較潛在平均數
嚴格恆等(strict) $\lambda$ + $\tau$ + 殘差變異 $\theta_\delta$ 連測量誤差都相同(較少要求)

判準是逐級檢驗模型適配是否「顯著變差」。傳統用卡方差異檢定 $\Delta\chi^2$,但它同樣對樣本數敏感,因此 Cheung & Rensvold(2002)建議改看 $\Delta\text{CFI}$:若加上一層限制後 CFI 下降不超過 $0.01$,就認定該層恆等成立。達到純量恆等,比較潛在平均數才站得住腳;只達到計量恆等,就只能比較係數與相關,不能比平均數。在跨文化、跨校、跨性別的教育研究裡,這一步常被略過,但它其實是後續一切比較的合法性前提。

看一個例子:略過恆等性檢驗會出什麼錯

某研究想宣稱「線上組學生的『學習自我效能』顯著高於實體組」。研究者直接把兩組各自的效能量表加總、跑 t 檢定,得到 $p < .01$,興高采烈下了結論。

問題出在哪?假設量表有一題是「我能順利使用課程平台完成作業」。對線上組,這題高度反映「自我效能」(負荷量 $\lambda = 0.8$);但對實體組,平台幾乎用不到,這題對效能的反映很弱($\lambda = 0.3$),甚至測到的是別的東西(電腦熟悉度)。此時:

  • 計量恆等不成立(兩組 $\lambda$ 差很多)→ 連「效能」這個構念在兩組是不是同一回事都成問題。
  • 即使負荷量相同,若這題在實體組的截距系統性偏低(純量不恆等),加總分數的組間差有一部分純粹來自這道題的偏差,而非真正的效能差異。

正確做法是先做多組 CFA:若卡在純量恆等過不了,可改採部分恆等(partial invariance)——放鬆那一兩道有問題的題目的限制,其餘維持相等,再以此模型比較潛在平均數。略過這一步直接比加總分,等於拿兩把刻度不同的尺量身高還宣稱誰高,結論隨時可能翻盤。

潛在成長模型:把「時間」變成潛在變數

入門篇的 SEM 都是橫斷面(cross-sectional):一個時間點、一批人。但教育最關心的往往是變化:學生的成效在一學期內怎麼成長?成長的起點與速度,能不能被別的變數預測?潛在成長曲線模型(latent growth curve model, LGCM)把同一批人在多個時間點的重複測量,巧妙地塞進 SEM 框架,把「成長」本身估計成潛在變數。

它的核心轉念是:把每個時間點的觀測分數 $y_{t}$,當成兩個潛在因素的線性組合——截距因素(intercept,記為 $I$,代表起始水準)與斜率因素(slope,記為 $S$,代表變化速度):

$$ y_{ti} = I_i + \lambda_t\, S_i + \varepsilon_{ti} $$

關鍵在於負荷量 $\lambda_t$ 不是估出來的,而是事先固定來編碼時間。例如四次等距測量,把截距因素對四個指標的負荷量全固定為 1(人人起點都「整份」算進去),把斜率因素的負荷量固定為 $0, 1, 2, 3$(線性成長的時間碼)。於是:

  • $I$ 的平均數 = 全體在 $t=0$ 的平均起始水準;$I$ 的變異數 = 學生起點的個別差異。
  • $S$ 的平均數 = 全體平均每期成長量;$S$ 的變異數 = 學生成長速度的個別差異(有人進步快、有人慢)。
  • $I$ 與 $S$ 的共變數 = 「起點高的人是否成長也快(或反而慢)」。

更強的是,這套框架天生就是 SEM,所以你可以再加一個外生變數(如「課前先備知識」)去預測 $I$ 和 $S$:先備知識高的人是不是起點較高?成長是否較平緩(天花板效應)?這在傳統重複量數 ANOVA 裡很難一次回答。

動手算一下:解讀一組成長參數

假設我們對某班學生做了四次月考($t = 0,1,2,3$,已固定斜率負荷量),估出潛在成長模型如下:

  • 截距因素 $I$:平均數 $= 60$,變異數 $= 100$
  • 斜率因素 $S$:平均數 $= 5$,變異數 $= 9$
  • $I$ 與 $S$ 的共變數 $= -12$

逐項解讀:

第一,平均軌跡。起始平均 $60$ 分,平均每期成長 $5$ 分,所以第三次月考的全班預期分數為

$$ \hat{y}_{t=3} = 60 + 5 \times 3 = 75 \text{ 分} $$

第二,個別差異。$I$ 的變異數 $100$ 代表起點的標準差約 $\sqrt{100}=10$ 分,學生起跑點差距不小;$S$ 的變異數 $9$(標準差 $3$)代表成長速度也因人而異——有人每期約成長 $5+3=8$ 分,有人僅約 $5-3=2$ 分。若 $S$ 的變異數接近 0,才代表「大家成長得差不多」。

第三,起點與成長的關係。把共變數轉成相關:

$$ r_{IS} = \frac{-12}{\sqrt{100}\,\sqrt{9}} = \frac{-12}{10 \times 3} = -0.40 $$

負相關代表起點越高的學生,成長越慢——這正是教育上常見的「補償效應/天花板效應」:低分群還有很大進步空間,高分群已接近上限。一個 $-0.40$ 的中等負相關,會讓研究者進一步追問:是教學設計幫到了後段班,還是高分群被既有課程綁住了?這種「平均趨勢 + 個別差異 + 兩者關聯」三合一的洞察,正是 LGCM 勝過只看班級平均分變化的地方。

修飾指標:救命的提示,還是過度適配的陷阱?

當模型適配不佳,軟體會吐出修飾指標(modification index, MI):對每一個目前被固定為 0 的參數(例如某兩題殘差之間的相關、某題對另一因素的交叉負荷),預估「如果放開它,卡方大約會下降多少」。MI 越大,放開該參數對適配的「幫助」越大。很多人看到 MI 就照單全收、一個個放開,直到適配指標漂亮為止——這是 SEM 最危險的誘惑。

問題在於:MI 是資料驅動的事後建議,不是理論。逐一追著 MI 修改模型,本質是對同一份資料反覆探勘(data dredging),會把樣本裡的隨機雜訊當成結構去擬合,導致過度適配(overfitting):模型在這份資料上很美,換一份新資料就垮。MacCallum 等人的模擬早已顯示,靠 MI 一路改出來的模型,跨樣本複現率很低。

正確的態度是:

  • MI 只是診斷線索,不是修改授權。放開任何參數前,先問「這在理論上講得通嗎」。
  • 最常見、也最可被接受的,是同一構念內、措辭高度相近的兩題之間的殘差相關(如「我喜歡這門課」與「我很享受這門課」)——它反映的是題目用字重疊,而非構念結構錯誤,放開有實質理由。
  • 反之,若 MI 建議某題「交叉負荷」到另一個本不相干的因素,多半是測量模型設計有問題,該回去檢討量表,而不是硬加一條路徑掩蓋。
  • 任何由 MI 驅動的修改,都應在論文中誠實揭露,並最好在獨立的驗證樣本(或交叉驗證)上重新確認。

一句話:MI 救得了適配數字,救不了模型的可複現性。把它當醫師的「驗血報告」——提供線索,但診斷與處方仍須回到理論這位主治醫師手上。

重點回顧

  • 李克特序位指標不該硬套 ML:應建立在多分相關之上、改用 WLSMV 估計,否則路徑與標準誤都會失真。
  • 跨組比較前必須先檢驗測量恆等性:達計量恆等才能比係數,達純量恆等才能比潛在平均數;判準看 $\Delta\text{CFI} \le 0.01$ 而非只靠 $\Delta\chi^2$。
  • 潛在成長模型把截距與斜率估成潛在變數,一次給出平均軌跡、個別差異、以及「起點 vs 成長速度」的關聯,遠勝只看班平均。
  • 修飾指標是資料驅動的診斷線索,不是修改授權;無理論支持地追逐 MI 會造成過度適配與低複現性。
  • 估計層(資料分配)與設計層(恆等性、縱貫結構)的正確性,與入門篇談的模型設定同等重要。

深入探討(研究所視角)

全訊息 vs 有限訊息估計。 入門篇的 ML 屬於全訊息估計(full-information):它一次擬合整個模型隱含的共變數矩陣 $\Sigma(\theta)$,任何一處設定錯誤都會透過 $\Sigma^{-1}$ 把偏誤「傳染」到全模型的所有參數。WLSMV 雖以多分相關為基礎,本質仍是擬合整個(加權的)相關結構。與之相對的是有限訊息估計(limited-information),代表是 Bollen 的兩階段最小平方(2SLS for SEM):它把模型拆成方程逐一估計,僅用各方程相關的工具變數。代價是效率較低(不像 ML 達到 Cramér–Rao 下界),好處是穩健性——一條方程設定錯誤,不會像全訊息法那樣污染其餘方程的估計。當模型某局部可能設錯、或樣本偏離常態時,有限訊息法是重要的敏感度分析工具:若全訊息與有限訊息結果分歧很大,通常意味著模型某處設定有誤。

WLSMV 的「平減與變異調整」到底調了什麼。 純粹的 WLS(ADF)需要估計並反轉完整的權重矩陣 $W$,其維度隨指標數平方膨脹,小樣本下 $W$ 的估計極不穩定,導致估計崩潰——這是 ADF 在實務上幾乎不可用的原因。WLSMV 的關鍵取巧是:估計參數時只用 $W$ 的對角元素(即 diagonally weighted,DWLS),大幅降低對樣本的需求;但在計算標準誤與卡方時,再用完整的 $W$ 做穩健校正。所謂「mean- and variance-adjusted」,指的是對卡方統計量同時校正其期望值(mean)與變異數(variance),使其在序位資料下的參考分配近似正確(類似 Satorra–Bentler 之於連續資料的 robust ML)。這也是為什麼 WLSMV 的卡方自由度常是非整數——它是經調整後的近似量,不能直接拿去做傳統卡方差異檢定;做巢狀模型比較時須改用 DIFFTEST 一類專門的校正程序。

等價模型與因果方向的不可辨識性,在縱貫設計下的部分鬆綁。 入門篇提到橫斷面 SEM 有等價模型問題(同一共變數矩陣可被反向模型同等適配)。縱貫資料能部分(但非完全)緩解:藉由時間先後,交叉延宕(cross-lagged panel)模型可區分「$T_1$ 動機預測 $T_2$ 投入」與「$T_1$ 投入預測 $T_2$ 動機」——時間順序排除了部分反向路徑。但要小心,傳統交叉延宕面板模型混淆了「個體間」與「個體內」變異,近年的 RI-CLPM(random-intercept cross-lagged panel model)藉由加入一個隨機截距,把穩定的個體間差異分離出來,才較乾淨地估計個體內的跨時間互相影響。在 Uedu 這類能蒐集多時間點學習歷程的平台上,從橫斷 SEM 走向 LGCM 與 RI-CLPM,是把「相關證據」往「機制證據」推進一步的關鍵設計選擇——但無論模型多精緻,「適配良好」始終只代表資料不反駁此模型,而非證明其為真。這份對假設的誠實,在縱貫分析裡同樣不可或缺。

AI 共讀助教正在陪你讀:結構方程模型 SEM(進階):序位指標估計、測量恆等性與潛在成長模型
嗨!我是這篇文章的共讀助教,只根據〈結構方程模型 SEM(進階):序位指標估計、測量恆等性與潛在成長模型〉的內容回答。可以問我「解釋某段」「舉個例子」「出題考我」,或反白文中段落後點下方「解釋選取段落」。