結構方程模型(SEM):潛在變數、路徑分析與中介效果
從測量模型與結構模型的切分,到中介鏈拆解、適配指標與最大概似協方差結構,理解社會科學論文的標配方法
為什麼「學習動機越強,成績就越好」這句話沒那麼簡單?
想像一位教育研究者手上握著一份問卷資料:學習動機、課堂投入、學業成效,三組變數各自用好幾道題目去測。直覺上她會跑一條迴歸:動機當自變數、成效當依變數,看看係數顯不顯著。可是這樣做立刻碰到兩個麻煩。第一,「動機」本身看不見摸不著,問卷上那五道題只是它的影子,每道題都帶著測量誤差,硬把五題加總當成「真實動機」並不誠實。第二,她真正想問的其實是一條鏈:動機是不是「先」提升了投入,投入「再」帶來成效?換句話說,投入是不是夾在中間的中介者?
普通迴歸回答不了這兩個問題。結構方程模型(Structural Equation Modeling,SEM)正是為此而生:它一邊用因素分析的邏輯,把多道題目背後那個看不見的「潛在變數」估計出來並扣掉測量誤差;一邊用路徑分析的邏輯,把好幾條因果假設(動機→投入→成效)同時放進一個方程系統裡一次估計。SEM 因此成了社會科學與教育研究論文的標準配備。

潛在變數與觀測指標:看不見的構念如何被測量
SEM 的世界裡有兩種變數。觀測變數(observed variable,又稱指標 indicator)是你直接量到的東西,例如問卷第 1 到第 5 題的作答分數,圖上慣例畫成方框。潛在變數(latent variable,又稱構念 construct)是看不見、卻被理論假設存在的東西,例如「學習動機」,圖上慣例畫成橢圓。
潛在變數與觀測指標之間的關係,寫成一條測量方程:
$$x_i = \lambda_i \xi + \delta_i$$
其中 $\xi$(ksi)是潛在變數,$x_i$ 是第 $i$ 個觀測指標,$\lambda_i$(lambda)是因素負荷量(factor loading),代表這道題對構念的反映強度,$\delta_i$ 是該題的測量誤差。這條式子的精神是:每道題之所以有分數,是因為它「反映」了背後的構念,外加一點專屬於這道題的雜訊。負荷量越高,這道題越能代表構念。
這正是 SEM 勝過「先把題目加總、再丟進迴歸」的關鍵:加總法假設每道題都完美無誤地測到構念($\delta_i = 0$),而 SEM 明確地把誤差估計出來、從構念中扣除,得到「清乾淨」的潛在變數,再拿去做後續的關係估計。
測量模型 vs 結構模型:SEM 的兩個半邊
一個完整的 SEM 由兩部分組成,理解這個切分是讀懂 SEM 的鑰匙。
測量模型(measurement model)處理「潛在變數 ↔ 觀測指標」的關係,也就是上面那條 $x_i = \lambda_i \xi + \delta_i$。它本質上就是驗證性因素分析(Confirmatory Factor Analysis, CFA):你事先指定哪些題目歸屬哪個構念,再檢驗資料是否支持這個結構。
結構模型(structural model)處理「潛在變數 ↔ 潛在變數」之間的因果路徑,例如動機 → 投入 → 成效。寫成方程:
$$\eta = \beta \eta + \gamma \xi + \zeta$$
其中 $\eta$(eta)是內生潛在變數(被其他變數預測的,如投入、成效),$\xi$ 是外生潛在變數(不被模型內任何變數預測的,如動機),$\beta$ 是內生變數彼此之間的路徑係數,$\gamma$ 是外生對內生的路徑係數,$\zeta$(zeta)是結構殘差。
實務上常採「兩步法」(Anderson & Gerbing, 1988):先單獨確認測量模型站得住腳(每個構念都被指標良好地測到),再加上結構路徑。這樣若整體模型適配不佳,你能分辨問題出在「測量」還是「結構」。
路徑係數:標準化與非標準化的解讀
結構模型估出來的路徑係數,就是研究者最關心的數字。它有兩種版本。
非標準化係數保留原始單位,解讀同迴歸斜率:外生變數每增加 1 單位,內生變數平均變動多少單位。標準化係數(standardized path coefficient,常記為 $\beta$)把所有變數轉成標準分數後的係數,落在約 $[-1, 1]$ 之間,可跨路徑比較相對強弱。論文裡畫的路徑圖,箭頭旁標的數字通常是標準化係數。
舉例:若「動機 → 投入」的標準化路徑為 $0.62$,「投入 → 成效」為 $0.45$,我們會說投入受動機的影響相當可觀,而成效受投入的影響中等。要注意:這些係數是「在控制了模型中其他路徑之後」的偏效果,且只在模型設定正確(路徑方向、變數齊全)的前提下才能做因果語氣的解讀。橫斷面資料下的 SEM 不能單憑統計證明因果,方向是由理論先驗指定的。
中介與調節:兩個容易混淆的機制
中介(mediation)回答的是「為什麼」或「透過什麼」:X 之所以影響 Y,是因為 X 先影響了中介變數 M,M 再影響 Y。動機 → 投入 → 成效就是典型的中介鏈。中介把總效果拆成兩塊:
$$\text{總效果} = \underbrace{c'}_{\text{直接效果}} + \underbrace{a \cdot b}_{\text{間接效果}}$$
其中 $a$ 是 X→M 的路徑,$b$ 是 M→Y 的路徑,$c'$ 是控制 M 後 X→Y 的直接路徑。間接效果 $a \cdot b$ 就是「透過中介傳遞」的那部分。
調節(moderation)回答的則是「在什麼條件下」或「對誰而言」:X 對 Y 的影響強度,會隨第三變數 W 而變。例如「動機 → 成效」的效果,可能在自律性高的學生身上較強、自律性低的學生身上較弱。調節在統計上是一個交互作用項:
$$Y = b_0 + b_1 X + b_2 W + b_3 (X \times W) + \varepsilon$$
$b_3$ 顯著就代表存在調節效果。一句話區分:中介問的是「機制」(一條因果鏈),調節問的是「邊界條件」(效果強弱隨情境改變)。兩者也可結合成「調節式中介」(moderated mediation),但那是更進階的設計。
帶數字的小範例:拆解一條中介鏈
假設我們在一個樣本上估出以下標準化路徑(動機 = X、投入 = M、成效 = Y):
- $a$(動機 → 投入)= $0.60$
- $b$(投入 → 成效)= $0.50$
- $c'$(動機 → 成效,控制投入後的直接效果)= $0.10$
計算各效果:
$$\text{間接效果} = a \times b = 0.60 \times 0.50 = 0.30$$ $$\text{總效果} = c' + a \cdot b = 0.10 + 0.30 = 0.40$$
解讀:動機對成效的總效果為 $0.40$,其中高達 $0.30$ 是「透過投入」傳遞的間接效果,只有 $0.10$ 是直接效果。我們可以算中介比例:
$$\frac{a \cdot b}{\text{總效果}} = \frac{0.30}{0.40} = 0.75$$
也就是動機對成效的影響,約有 $75\%$ 是經由「先提升投入」這條路徑達成的。由於直接效果 $c' = 0.10$ 雖小但未必為零,這屬於部分中介(partial mediation);若 $c'$ 在統計上不顯著、可視為零,才稱完全中介(full mediation)。這個拆解正好回應了開頭那位研究者的疑問:投入確實是動機與成效之間關鍵的橋樑。
模型適配指標:模型「夠像」資料嗎?
SEM 的核心問題是:你假設的那套路徑與測量結構,能不能重現實際觀察到的變數間共變關係?適配指標(fit indices)就是在量化「假設」與「資料」的落差。常用的幾個及其慣用門檻:
| 指標 | 全名 | 良好門檻 |
|---|---|---|
| CFI | Comparative Fit Index | $\geq 0.95$ |
| TLI | Tucker-Lewis Index | $\geq 0.95$ |
| RMSEA | Root Mean Square Error of Approximation | $\leq 0.06$ |
| SRMR | Standardized Root Mean Square Residual | $\leq 0.08$ |
它們分屬不同家族。CFI 與 TLI 是「增量適配指標」,把你的模型拿來跟一個最差的「獨立模型」(假設變數彼此完全無關)比較,看你進步了多少,數值越接近 1 越好;TLI 還對模型複雜度做了懲罰。RMSEA 是「絕對適配指標」,衡量每個自由度上的近似誤差,並會懲罰過度複雜的模型,越小越好,通常還會報告其 90% 信賴區間。SRMR 是觀測共變與模型隱含共變之間殘差的標準化平均,直接反映「平均殘差」有多大。
實務建議:不要只看單一指標,而要綜合報告(常見組合為 CFI、TLI、RMSEA、SRMR 一併呈現)。門檻(Hu & Bentler, 1999)是經驗法則而非鐵律,過度追求數字漂亮而不斷修改模型,會帶來過度適配與資料探勘的風險。
識別問題:方程夠不夠解出參數?
識別(identification)是 SEM 能否估計的前提,概念類似「方程式數量要夠多才解得出未知數」。SEM 用觀測變數的共變數矩陣提供「已知資訊」,去解模型中的未知參數(負荷量、路徑、誤差變異等)。
令觀測變數有 $p$ 個,則共變數矩陣提供的獨立資訊量為:
$$\frac{p(p+1)}{2}$$
模型的自由度為「這個資訊量」減去「待估參數個數」。三種情況:
- 不足識別(under-identified):待估參數比資訊還多,自由度為負,無解。
- 恰好識別(just-identified):兩者相等,自由度為 0,模型必然完美重現資料,但無法檢驗適配。
- 過度識別(over-identified):資訊多於參數,自由度為正,這才是我們要的——模型可被檢驗、適配指標才有意義。
實務上還有兩條常見規則確保潛在變數有「尺度」:要嘛把某個指標的負荷量固定為 1(標記變數法),要嘛把潛在變數的變異數固定為 1。沒有定尺度,潛在變數的單位無從確定,模型也識別不了。
與迴歸、因素分析的關係:SEM 是一個統一框架
理解 SEM 最快的方式,是把它看成既有方法的整合:
- 多元迴歸 是 SEM 的特例:當所有變數都是觀測變數(沒有潛在變數、沒有測量誤差)、且只有一個依變數時,結構模型就退化成一條迴歸。
- 驗證性因素分析(CFA) 正是 SEM 的測量模型部分:只關心「指標如何反映構念」,還沒加上構念之間的因果路徑。
- 路徑分析(path analysis) 是「只有觀測變數的結構模型」:有多條因果路徑,但每個構念都用單一觀測值代表,不處理測量誤差。
把這三者疊起來——用 CFA 處理測量、用路徑分析處理結構、再容許多個依變數同時估計——就得到完整的 SEM。這也說明了 SEM 的威力:它讓研究者在同一個模型裡,同時校正測量誤差、估計多條相互關聯的路徑、並檢驗整體理論結構是否與資料相符。
重點回顧
- SEM = 測量模型(潛在變數 ↔ 觀測指標,本質是 CFA)+ 結構模型(潛在變數之間的因果路徑),兩半合一。
- 潛在變數透過 $x_i = \lambda_i \xi + \delta_i$ 與指標相連,明確扣除測量誤差,這是它勝過「題目加總後跑迴歸」的關鍵。
- 中介把總效果拆成「直接效果 $c'$」與「間接效果 $a \cdot b$」,回答「透過什麼機制」;調節是交互作用項,回答「在什麼條件下」。
- 模型適配要綜合看 CFI/TLI($\geq 0.95$)、RMSEA($\leq 0.06$)、SRMR($\leq 0.08$),門檻是經驗法則不是鐵律。
- 模型要「過度識別」(自由度為正)才檢驗得了適配;迴歸、CFA、路徑分析都是 SEM 的特例。
深入探討(研究所視角)
最大概似估計與協方差結構。 SEM 的估計目標不是逐筆殘差最小化,而是結構化整個共變數矩陣。設模型隱含的母體共變數矩陣為 $\Sigma(\theta)$,其中 $\theta$ 是所有待估參數的向量;樣本共變數矩陣為 $S$。SEM 要找的 $\theta$,是讓 $\Sigma(\theta)$ 盡量貼近 $S$ 的那組。在多元常態假設下,最大概似(ML)估計等價於最小化以下適配函數:
$$F_{ML}(\theta) = \log|\Sigma(\theta)| + \text{tr}\!\left(S\,\Sigma(\theta)^{-1}\right) - \log|S| - p$$
其中 $p$ 是觀測變數個數,$\text{tr}(\cdot)$ 為矩陣跡。當 $\Sigma(\theta) = S$(恰好識別或完美適配)時,$F_{ML} = 0$。這個函數的精神是用 Kullback–Leibler 散度衡量兩個常態分配的距離,因此 SEM 又被稱為協方差結構分析(covariance structure analysis)——它擬合的對象是「共變數矩陣」這個二階動差,而非原始資料點。模型的卡方檢定統計量正是 $\chi^2 = (N-1)\,\hat{F}_{ML}$,其虛無假設為 $\Sigma(\theta) = \Sigma$(模型正確),自由度即前述「資訊量減參數量」。值得注意的是,$\chi^2$ 對樣本數極度敏感,大樣本下幾乎必然顯著,這正是研究者改用 CFI、RMSEA 等近似適配指標的原因。
Bootstrap 中介效果信賴區間。 間接效果 $a \cdot b$ 是兩個估計量的乘積,其抽樣分配不對稱、非常態,因此早年用 Sobel 檢定(假設 $a \cdot b$ 常態、以 delta method 求標準誤)會低估顯著性、犯型一型二錯誤。現代標準做法是 bootstrap:從原樣本有放回地重抽 $B$ 次(通常 $B = 5000$ 或 $10000$),每一份重抽樣本都重新估一次 SEM、算出一個 $a^{*}_k \cdot b^{*}_k$,得到 $B$ 個間接效果的經驗分配,再取其百分位數作為信賴區間。常用的偏誤校正(bias-corrected)百分位法會依點估計在 bootstrap 分配中的位置調整取值百分位。判準是:若 95% 信賴區間不包含 0,則中介效果顯著。這個方法不假設 $a \cdot b$ 常態,直接從資料逼近其真實抽樣分配,在偵測中介效果上比 Sobel 檢定更有檢定力,已成為 mediation 分析的事實標準。
研究設計上的限制與誠實揭露。 SEM 的因果語氣全由理論先驗賦予——同一組共變數矩陣,往往能被多個方向相反或結構不同的模型同等良好地適配(等價模型問題)。橫斷面資料下,「動機 → 投入 → 成效」與某個反向模型在統計上可能無法區分。因此嚴謹的研究會輔以縱貫設計(測量時間先後)、理論論證與敏感度分析,並明確聲明:適配良好只代表「資料不反駁此模型」,不等於「此模型為真」。在 Uedu 這類教育研究情境裡,當我們用 SEM 分析「學習動機 → 課堂投入 → 學業成效」的中介鏈時,這份對假設的誠實揭露,與模型本身的統計嚴謹同等重要。