結構方程模型（SEM）：潛在變數、路徑分析與中介效果

從測量模型與結構模型的切分，到中介鏈拆解、適配指標與最大概似協方差結構，理解社會科學論文的標配方法

進階 · 約 16 分鐘 ·#結構方程模型#潛在變數#中介效果#模型適配#驗證性因素分析#最大概似估計

為什麼「學習動機越強，成績就越好」這句話沒那麼簡單？

想像一位教育研究者手上握著一份問卷資料：學習動機、課堂投入、學業成效，三組變數各自用好幾道題目去測。直覺上她會跑一條迴歸：動機當自變數、成效當依變數，看看係數顯不顯著。可是這樣做立刻碰到兩個麻煩。第一，「動機」本身看不見摸不著，問卷上那五道題只是它的影子，每道題都帶著測量誤差，硬把五題加總當成「真實動機」並不誠實。第二，她真正想問的其實是一條鏈：動機是不是「先」提升了投入，投入「再」帶來成效？換句話說，投入是不是夾在中間的中介者？

普通迴歸回答不了這兩個問題。結構方程模型（Structural Equation Modeling，SEM）正是為此而生：它一邊用因素分析的邏輯，把多道題目背後那個看不見的「潛在變數」估計出來並扣掉測量誤差；一邊用路徑分析的邏輯，把好幾條因果假設（動機→投入→成效）同時放進一個方程系統裡一次估計。SEM 因此成了社會科學與教育研究論文的標準配備。

結構方程模型 SEM概念示意圖

潛在變數與觀測指標：看不見的構念如何被測量

SEM 的世界裡有兩種變數。觀測變數（observed variable，又稱指標 indicator）是你直接量到的東西，例如問卷第 1 到第 5 題的作答分數，圖上慣例畫成方框。潛在變數（latent variable，又稱構念 construct）是看不見、卻被理論假設存在的東西，例如「學習動機」，圖上慣例畫成橢圓。

潛在變數與觀測指標之間的關係，寫成一條測量方程：

$$x_i = \lambda_i \xi + \delta_i$$

其中 $\xi$（ksi）是潛在變數，$x_i$ 是第 $i$ 個觀測指標，$\lambda_i$（lambda）是因素負荷量（factor loading），代表這道題對構念的反映強度，$\delta_i$ 是該題的測量誤差。這條式子的精神是：每道題之所以有分數，是因為它「反映」了背後的構念，外加一點專屬於這道題的雜訊。負荷量越高，這道題越能代表構念。

這正是 SEM 勝過「先把題目加總、再丟進迴歸」的關鍵：加總法假設每道題都完美無誤地測到構念（$\delta_i = 0$），而 SEM 明確地把誤差估計出來、從構念中扣除，得到「清乾淨」的潛在變數，再拿去做後續的關係估計。

測量模型 vs 結構模型：SEM 的兩個半邊

一個完整的 SEM 由兩部分組成，理解這個切分是讀懂 SEM 的鑰匙。

測量模型（measurement model）處理「潛在變數 ↔ 觀測指標」的關係，也就是上面那條 $x_i = \lambda_i \xi + \delta_i$。它本質上就是驗證性因素分析（Confirmatory Factor Analysis, CFA）：你事先指定哪些題目歸屬哪個構念，再檢驗資料是否支持這個結構。

結構模型（structural model）處理「潛在變數 ↔ 潛在變數」之間的因果路徑，例如動機 → 投入 → 成效。寫成方程：

$$\eta = \beta \eta + \gamma \xi + \zeta$$

其中 $\eta$（eta）是內生潛在變數（被其他變數預測的，如投入、成效），$\xi$ 是外生潛在變數（不被模型內任何變數預測的，如動機），$\beta$ 是內生變數彼此之間的路徑係數，$\gamma$ 是外生對內生的路徑係數，$\zeta$（zeta）是結構殘差。

實務上常採「兩步法」（Anderson & Gerbing, 1988）：先單獨確認測量模型站得住腳（每個構念都被指標良好地測到），再加上結構路徑。這樣若整體模型適配不佳，你能分辨問題出在「測量」還是「結構」。

路徑係數：標準化與非標準化的解讀

結構模型估出來的路徑係數，就是研究者最關心的數字。它有兩種版本。

非標準化係數保留原始單位，解讀同迴歸斜率：外生變數每增加 1 單位，內生變數平均變動多少單位。標準化係數（standardized path coefficient，常記為 $\beta$）把所有變數轉成標準分數後的係數，落在約 $[-1, 1]$ 之間，可跨路徑比較相對強弱。論文裡畫的路徑圖，箭頭旁標的數字通常是標準化係數。

舉例：若「動機 → 投入」的標準化路徑為 $0.62$，「投入 → 成效」為 $0.45$，我們會說投入受動機的影響相當可觀，而成效受投入的影響中等。要注意：這些係數是「在控制了模型中其他路徑之後」的偏效果，且只在模型設定正確（路徑方向、變數齊全）的前提下才能做因果語氣的解讀。橫斷面資料下的 SEM 不能單憑統計證明因果，方向是由理論先驗指定的。

中介與調節：兩個容易混淆的機制

中介（mediation）回答的是「為什麼」或「透過什麼」：X 之所以影響 Y，是因為 X 先影響了中介變數 M，M 再影響 Y。動機 → 投入 → 成效就是典型的中介鏈。中介把總效果拆成兩塊：

$$\text{總效果} = \underbrace{c'}_{\text{直接效果}} + \underbrace{a \cdot b}_{\text{間接效果}}$$

其中 $a$ 是 X→M 的路徑，$b$ 是 M→Y 的路徑，$c'$ 是控制 M 後 X→Y 的直接路徑。間接效果 $a \cdot b$ 就是「透過中介傳遞」的那部分。

調節（moderation）回答的則是「在什麼條件下」或「對誰而言」：X 對 Y 的影響強度，會隨第三變數 W 而變。例如「動機 → 成效」的效果，可能在自律性高的學生身上較強、自律性低的學生身上較弱。調節在統計上是一個交互作用項：

$$Y = b_0 + b_1 X + b_2 W + b_3 (X \times W) + \varepsilon$$

$b_3$ 顯著就代表存在調節效果。一句話區分：中介問的是「機制」（一條因果鏈），調節問的是「邊界條件」（效果強弱隨情境改變）。兩者也可結合成「調節式中介」（moderated mediation），但那是更進階的設計。

帶數字的小範例：拆解一條中介鏈

假設我們在一個樣本上估出以下標準化路徑（動機 = X、投入 = M、成效 = Y）：

$a$（動機 → 投入）= $0.60$
$b$（投入 → 成效）= $0.50$
$c'$（動機 → 成效，控制投入後的直接效果）= $0.10$

計算各效果：

$$\text{間接效果} = a \times b = 0.60 \times 0.50 = 0.30$$ $$\text{總效果} = c' + a \cdot b = 0.10 + 0.30 = 0.40$$

解讀：動機對成效的總效果為 $0.40$，其中高達 $0.30$ 是「透過投入」傳遞的間接效果，只有 $0.10$ 是直接效果。我們可以算中介比例：

$$\frac{a \cdot b}{\text{總效果}} = \frac{0.30}{0.40} = 0.75$$

也就是動機對成效的影響，約有 $75\%$ 是經由「先提升投入」這條路徑達成的。由於直接效果 $c' = 0.10$ 雖小但未必為零，這屬於部分中介（partial mediation）；若 $c'$ 在統計上不顯著、可視為零，才稱完全中介（full mediation）。這個拆解正好回應了開頭那位研究者的疑問：投入確實是動機與成效之間關鍵的橋樑。

模型適配指標：模型「夠像」資料嗎？

SEM 的核心問題是：你假設的那套路徑與測量結構，能不能重現實際觀察到的變數間共變關係？適配指標（fit indices）就是在量化「假設」與「資料」的落差。常用的幾個及其慣用門檻：

指標	全名	良好門檻
CFI	Comparative Fit Index	$\geq 0.95$
TLI	Tucker-Lewis Index	$\geq 0.95$
RMSEA	Root Mean Square Error of Approximation	$\leq 0.06$
SRMR	Standardized Root Mean Square Residual	$\leq 0.08$

它們分屬不同家族。CFI 與 TLI 是「增量適配指標」，把你的模型拿來跟一個最差的「獨立模型」（假設變數彼此完全無關）比較，看你進步了多少，數值越接近 1 越好；TLI 還對模型複雜度做了懲罰。RMSEA 是「絕對適配指標」，衡量每個自由度上的近似誤差，並會懲罰過度複雜的模型，越小越好，通常還會報告其 90% 信賴區間。SRMR 是觀測共變與模型隱含共變之間殘差的標準化平均，直接反映「平均殘差」有多大。

實務建議：不要只看單一指標，而要綜合報告（常見組合為 CFI、TLI、RMSEA、SRMR 一併呈現）。門檻（Hu & Bentler, 1999）是經驗法則而非鐵律，過度追求數字漂亮而不斷修改模型，會帶來過度適配與資料探勘的風險。

識別問題：方程夠不夠解出參數？

識別（identification）是 SEM 能否估計的前提，概念類似「方程式數量要夠多才解得出未知數」。SEM 用觀測變數的共變數矩陣提供「已知資訊」，去解模型中的未知參數（負荷量、路徑、誤差變異等）。

令觀測變數有 $p$ 個，則共變數矩陣提供的獨立資訊量為：

$$\frac{p(p+1)}{2}$$

模型的自由度為「這個資訊量」減去「待估參數個數」。三種情況：

不足識別（under-identified）：待估參數比資訊還多，自由度為負，無解。
恰好識別（just-identified）：兩者相等，自由度為 0，模型必然完美重現資料，但無法檢驗適配。
過度識別（over-identified）：資訊多於參數，自由度為正，這才是我們要的——模型可被檢驗、適配指標才有意義。

實務上還有兩條常見規則確保潛在變數有「尺度」：要嘛把某個指標的負荷量固定為 1（標記變數法），要嘛把潛在變數的變異數固定為 1。沒有定尺度，潛在變數的單位無從確定，模型也識別不了。

與迴歸、因素分析的關係：SEM 是一個統一框架

理解 SEM 最快的方式，是把它看成既有方法的整合：

多元迴歸 是 SEM 的特例：當所有變數都是觀測變數（沒有潛在變數、沒有測量誤差）、且只有一個依變數時，結構模型就退化成一條迴歸。
驗證性因素分析（CFA） 正是 SEM 的測量模型部分：只關心「指標如何反映構念」，還沒加上構念之間的因果路徑。
路徑分析（path analysis） 是「只有觀測變數的結構模型」：有多條因果路徑，但每個構念都用單一觀測值代表，不處理測量誤差。

把這三者疊起來——用 CFA 處理測量、用路徑分析處理結構、再容許多個依變數同時估計——就得到完整的 SEM。這也說明了 SEM 的威力：它讓研究者在同一個模型裡，同時校正測量誤差、估計多條相互關聯的路徑、並檢驗整體理論結構是否與資料相符。

重點回顧

SEM = 測量模型（潛在變數 ↔ 觀測指標，本質是 CFA）+ 結構模型（潛在變數之間的因果路徑），兩半合一。
潛在變數透過 $x_i = \lambda_i \xi + \delta_i$ 與指標相連，明確扣除測量誤差，這是它勝過「題目加總後跑迴歸」的關鍵。
中介把總效果拆成「直接效果 $c'$」與「間接效果 $a \cdot b$」，回答「透過什麼機制」；調節是交互作用項，回答「在什麼條件下」。
模型適配要綜合看 CFI/TLI（$\geq 0.95$）、RMSEA（$\leq 0.06$）、SRMR（$\leq 0.08$），門檻是經驗法則不是鐵律。
模型要「過度識別」（自由度為正）才檢驗得了適配；迴歸、CFA、路徑分析都是 SEM 的特例。

深入探討（研究所視角）

最大概似估計與協方差結構。 SEM 的估計目標不是逐筆殘差最小化，而是結構化整個共變數矩陣。設模型隱含的母體共變數矩陣為 $\Sigma(\theta)$，其中 $\theta$ 是所有待估參數的向量；樣本共變數矩陣為 $S$。SEM 要找的 $\theta$，是讓 $\Sigma(\theta)$ 盡量貼近 $S$ 的那組。在多元常態假設下，最大概似（ML）估計等價於最小化以下適配函數：

$$F_{ML}(\theta) = \log|\Sigma(\theta)| + \text{tr}\!\left(S\,\Sigma(\theta)^{-1}\right) - \log|S| - p$$

其中 $p$ 是觀測變數個數，$\text{tr}(\cdot)$ 為矩陣跡。當 $\Sigma(\theta) = S$（恰好識別或完美適配）時，$F_{ML} = 0$。這個函數的精神是用 Kullback–Leibler 散度衡量兩個常態分配的距離，因此 SEM 又被稱為協方差結構分析（covariance structure analysis）——它擬合的對象是「共變數矩陣」這個二階動差，而非原始資料點。模型的卡方檢定統計量正是 $\chi^2 = (N-1)\,\hat{F}_{ML}$，其虛無假設為 $\Sigma(\theta) = \Sigma$（模型正確），自由度即前述「資訊量減參數量」。值得注意的是，$\chi^2$ 對樣本數極度敏感，大樣本下幾乎必然顯著，這正是研究者改用 CFI、RMSEA 等近似適配指標的原因。

Bootstrap 中介效果信賴區間。 間接效果 $a \cdot b$ 是兩個估計量的乘積，其抽樣分配不對稱、非常態，因此早年用 Sobel 檢定（假設 $a \cdot b$ 常態、以 delta method 求標準誤）會低估顯著性、犯型一型二錯誤。現代標準做法是 bootstrap：從原樣本有放回地重抽 $B$ 次（通常 $B = 5000$ 或 $10000$），每一份重抽樣本都重新估一次 SEM、算出一個 $a^{*}_k \cdot b^{*}_k$，得到 $B$ 個間接效果的經驗分配，再取其百分位數作為信賴區間。常用的偏誤校正（bias-corrected）百分位法會依點估計在 bootstrap 分配中的位置調整取值百分位。判準是：若 95% 信賴區間不包含 0，則中介效果顯著。這個方法不假設 $a \cdot b$ 常態，直接從資料逼近其真實抽樣分配，在偵測中介效果上比 Sobel 檢定更有檢定力，已成為 mediation 分析的事實標準。

研究設計上的限制與誠實揭露。 SEM 的因果語氣全由理論先驗賦予——同一組共變數矩陣，往往能被多個方向相反或結構不同的模型同等良好地適配（等價模型問題）。橫斷面資料下，「動機 → 投入 → 成效」與某個反向模型在統計上可能無法區分。因此嚴謹的研究會輔以縱貫設計（測量時間先後）、理論論證與敏感度分析，並明確聲明：適配良好只代表「資料不反駁此模型」，不等於「此模型為真」。在 Uedu 這類教育研究情境裡，當我們用 SEM 分析「學習動機 → 課堂投入 → 學業成效」的中介鏈時，這份對假設的誠實揭露，與模型本身的統計嚴謹同等重要。

結構方程模型 SEM（進階）：序位指標估計、測量恆等性與潛在成長模型

--

1

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings