縱貫資料與成長模型：追蹤同一群人的學習軌跡

從橫斷快照到個別軌跡——用潛在成長曲線模型看見學習如何隨時間彎折

進階 · 約 16 分鐘 ·#縱貫研究#成長模型#潛在成長曲線#多層次模型#教育心理計量

為什麼「期末考進步了 10 分」可能騙了你？

想像兩位教師在學期末核對成績。甲班期初平均 60 分、期末平均 70 分；乙班期初 65 分、期末 72 分。乍看之下甲班「進步 10 分」、乙班「只進步 7 分」，甲班贏了。但若有人問：「班上是不是每個學生都進步了同樣多？有沒有人原本很高、後來不增反退？進步速度快的學生，是不是一開始就比較弱、所以有較大空間補？」——這些問題，單看兩個平均值一律答不出來。

平均數只告訴我們群體的「集體位移」，卻抹去了每一條學習軌跡的形狀。要回答「誰、從哪裡出發、用多快的速度、朝哪個方向走」，我們需要的不是橫斷面的兩張快照，而是縱貫資料與成長模型。這正是 Educational Omics 時序維度的核心關懷：學習不是一個分數，而是一條會隨時間彎折的曲線。

縱貫與成長模型概念示意圖

橫斷設計 vs 縱貫設計：兩種看世界的方式

橫斷研究（cross-sectional） 在單一時間點對不同個體取樣。例如同時測量大一、大二、大三、大四學生的批判思考分數，用年級之間的差異推論「隨年級增長的趨勢」。它便宜、快速，但有一個致命假設：不同年級的學生「可比」。

縱貫研究（longitudinal） 則對同一群個體在多個時間點重複測量。同一批學生從大一追蹤到大四，每年量一次。它能直接觀察「個體內的變化」（within-person change），而非僅靠「個體間差異」（between-person difference）去推測。

兩者最深刻的分歧在於世代效應（cohort effect）。橫斷資料中，大四學生與大一學生不只差在「年資」，他們入學年份不同、課綱不同、入學門檻不同。你以為量到的是「成長」，實際上混入了世代差異。縱貫設計追蹤同一群人，把世代固定下來，才讓「時間」這個變項真正乾淨。

代價是縱貫研究昂貴、耗時，而且會遇到橫斷研究沒有的麻煩：重複測量帶來的資料相依性，以及隨時間累積的遺漏值。

重複測量為什麼不能用普通迴歸？

普通最小平方迴歸（OLS）的核心假設之一是觀測值彼此獨立。但縱貫資料天生違反這條：同一位學生在第 1 週、第 5 週、第 10 週的三個分數，彼此高度相關——能力強的學生三次都偏高，能力弱的三次都偏低。

我們可以把每一次測量值拆解成兩個來源的變異：

$$ y_{ti} = \underbrace{(\text{個體 } i \text{ 的真實水準})}_{\text{個體間 between}} + \underbrace{(\text{第 } t \text{ 次的偏離})}_{\text{個體內 within}} $$

同一個體的多次測量共享了「個體真實水準」這一項，於是它們不獨立。若忽略這層相依、硬套 OLS，標準誤會被嚴重低估，導致你過度自信地宣稱「顯著」——這是縱貫分析最常見的統計災難。

成長模型的做法，是把這種相依明確建模，而不是假裝它不存在。

潛在成長曲線模型（LGM）：把「軌跡」變成參數

潛在成長曲線模型（Latent Growth Model, LGM）的核心洞見是：每位學生的整條軌跡，可以用少數幾個「人各一份」的潛在參數來描述。 最常見的線性版本，每位學生 $i$ 在時間 $t$ 的觀測值寫成：

$$ y_{ti} = \beta_{0i} + \beta_{1i}\,\lambda_t + \varepsilon_{ti} $$

其中 $\lambda_t$ 是時間編碼（time coding），$\varepsilon_{ti}$ 是測量誤差。兩個關鍵參數：

$\beta_{0i}$：隨機截距（random intercept），代表學生 $i$ 的「初始水準」——時間起點的能力。
$\beta_{1i}$：隨機斜率（random slope），代表學生 $i$ 的「成長率」——單位時間能力增加多少。

這兩個參數本身又被視為來自群體分布：

$$ \beta_{0i} = \gamma_{00} + u_{0i}, \qquad \beta_{1i} = \gamma_{10} + u_{1i} $$

$\gamma_{00}$、$\gamma_{10}$ 是固定效果（群體的平均起點與平均成長率），$u_{0i}$、$u_{1i}$ 是隨機效果（個體偏離群體的量）。隨機效果通常假設服從多元常態：

$$ \begin{pmatrix} u_{0i} \\ u_{1i} \end{pmatrix} \sim \mathcal{N}\!\left( \begin{pmatrix} 0 \\ 0 \end{pmatrix},\ \begin{pmatrix} \tau_{00} & \tau_{01} \\ \tau_{01} & \tau_{11} \end{pmatrix} \right) $$

這個共變異矩陣藏著教育研究最有趣的問題：

$\tau_{00}$：學生起點的個別差異有多大？
$\tau_{11}$：學生成長率的個別差異有多大？（若 $\tau_{11}\approx 0$，代表大家進步速度差不多，否則有人衝刺有人停滯。）
$\tau_{01}$：起點與成長率的相關。若為負，代表起點低的學生反而成長得快（追趕、補償效應）；若為正，代表強者愈強（馬太效應）。

只用一個「平均進步 10 分」，這三個量全被抹掉了。

時間編碼：起點放哪裡決定了截距的意義

$\lambda_t$ 的設定看似技術細節，實則決定參數的解讀。假設四次測量在第 0、5、10、15 週：

編碼 $\lambda = (0, 5, 10, 15)$：截距 $\beta_{0i}$ 是「第 0 週（學期初）的水準」，斜率單位是「每週」。
編碼 $\lambda = (-7.5, -2.5, 2.5, 7.5)$（置中）：截距變成「學期中點的水準」，常用來降低截距與斜率的相關、改善估計穩定性。
編碼 $\lambda = (0, 1, 2, 3)$：斜率單位變成「每次測量間隔」。

重點是：截距永遠是「時間 = 0 那一點」的預測值，你把 0 放在哪，截距就解釋成哪裡。實務上建議把 0 放在實質上有意義的時間點（學期初或學期末），讓 $\gamma_{00}$ 可被直接詮釋。

線性不夠用時：非線性成長

學習很少是直線。語言詞彙量常呈先快後慢的對數型；複雜技能可能有「高原期」後再突破。LGM 可以彈性擴充：

多項式成長：加入二次項 $\beta_{2i}\lambda_t^2$ 捕捉加速或減速。
自由估計斜率載荷（free-loading）：固定 $\lambda_1=0$、$\lambda_2=1$，其餘 $\lambda_3, \lambda_4$ 讓資料自己估，曲線形狀由資料決定，不預設線性。
分段（piecewise）成長：在某個轉折點（例如導入新教學介入）前後估計兩段不同斜率，直接量化介入的效果。

選哪一種，取決於理論假設與模型適配指標，而非「能跑就好」。

隨機截距、隨機斜率與多層次模型的等價關係

這裡是一個容易讓人困惑、卻極為重要的事實：LGM 與多層次模型（Multilevel Model, MLM；又稱階層線性模型 HLM）在數學上是同一個模型的兩種包裝。

多層次模型把資料看成兩層巢狀結構：時間點（Level 1）巢狀於個體（Level 2）。它的方程式寫成：

$$ \text{Level 1:}\quad y_{ti} = \beta_{0i} + \beta_{1i}\,\text{Time}_{ti} + \varepsilon_{ti} $$ $$ \text{Level 2:}\quad \beta_{0i} = \gamma_{00} + u_{0i}, \quad \beta_{1i} = \gamma_{10} + u_{1i} $$

把這兩層代入合併，得到混合效果模型的標準形式。比較它與前面 LGM 的式子——完全一樣。差別只在傳統：MLM 出身於迴歸／變異數成分的觀點，用軟體如 lme4、HLM；LGM 出身於結構方程模型（SEM）的觀點，把截距與斜率畫成潛在變項，用軟體如 lavaan、Mplus。

兩者的實務分工：

MLM 對「不等間距、每人測量次數不同」的資料更靈活（時間是一個變項而非固定欄位）。
LGM 因為在 SEM 框架內，更容易把成長因子接到其他潛在變項、做中介、加入測量模型（用多個題目估計潛在能力）。

理解兩者等價，能讓你在文獻裡看到 HLM、混合模型、LGM、隨機係數模型等不同名詞時，知道它們指向同一個統計核心。

帶數字的小範例：解讀一份成長模型輸出

假設我們追蹤一門課 200 位學生的每月寫作評分（0–100），測量在第 0、1、2、3 月，時間編碼 $\lambda=(0,1,2,3)$。LGM 估計結果（虛構示意）：

參數	估計值	解讀
$\gamma_{00}$（平均截距）	58.0	群體第 0 月平均 58 分
$\gamma_{10}$（平均斜率）	4.2	群體平均每月進步 4.2 分
$\tau_{00}$（截距變異）	64.0	起點標準差 $\sqrt{64}=8$ 分
$\tau_{11}$（斜率變異）	2.25	成長率標準差 $\sqrt{2.25}=1.5$ 分/月
$\tau_{01}$（截距-斜率共變）	$-6.0$	起點與成長率呈負相關

先算群體平均軌跡：第 3 月預測 $58.0 + 4.2\times 3 = 70.6$ 分。

再看個別差異。起點標準差 8 分，代表約 95% 學生的起點落在 $58 \pm 1.96\times 8 \approx [42, 74]$ 分。成長率標準差 1.5 分/月，代表多數學生每月進步落在 $4.2 \pm 1.96\times 1.5 \approx [1.3, 7.1]$ 分——有人幾乎停滯，有人飛速。

最關鍵是 $\tau_{01}=-6.0$，換算相關係數：

$$ r = \frac{\tau_{01}}{\sqrt{\tau_{00}\,\tau_{11}}} = \frac{-6.0}{\sqrt{64\times 2.25}} = \frac{-6.0}{12} = -0.5 $$

中度負相關，意味著起點越低的學生，成長越快——一個追趕（compensatory）的故事。若只報告 $\gamma_{10}=4.2$「平均每月進步 4.2 分」，這個重要的教學洞見就被完全掩蓋了。

individual trajectory：把每一條曲線看回來

成長模型最迷人的，是它讓我們同時擁有兩個層次的視角：群體的平均趨勢，與每位學生的個別軌跡（individual trajectory）。

估出固定效果後，我們可以用經驗貝氏（empirical Bayes）／最佳線性無偏預測（BLUP） 為每位學生回推其隨機效果 $\hat{u}_{0i}, \hat{u}_{1i}$，進而得到該生專屬的截距與斜率。值得注意的是，這些個別估計值會被「收縮（shrinkage）」往群體均值靠攏——測量次數越少、誤差越大的學生，收縮越強。這是有意的：當某位學生的資料稀薄時，模型理性地借用群體資訊，避免被少數雜訊點誤導。

把每位學生的 $\hat{\beta}_{0i}, \hat{\beta}_{1i}$ 畫成散佈圖，等於得到一張「學習軌跡地圖」：右上角是起點高、成長也快的學生；左上角是起點低但快速追趕的學生；右下角則是起點高卻停滯甚至退步的學生——後者往往是最需要關注、卻最容易被「班級平均在進步」掩蓋的一群。在 Uedu 平台上，這正是把多次測驗、作業、對話軌跡串成時序，讓教師看見個別學習者真實形狀的意義所在。

但任何個別軌跡的詮釋都受限於模型假設：我們假設了成長形狀（線性／非線性）、誤差結構、隨機效果常態性。模型只是對真實軌跡的近似，不是真相本身；用它做高風險決策（如分流、補救名單）前，務必檢視適配度與殘差。

遺漏值與退出偏誤：縱貫研究的暗礁

縱貫研究幾乎必然遇到樣本流失（attrition）：有人轉學、有人缺考、有人中途退出。問題不在「少了幾筆」，而在為什麼少。統計上區分三種遺漏機制：

MCAR（完全隨機遺漏）：遺漏與任何變項都無關（如隨機當機掉資料）。最理想但罕見。
MAR（隨機遺漏）：遺漏可由已觀測的資料解釋（如低分學生較易退出，而我們有他們先前的分數）。
MNAR（非隨機遺漏）：遺漏取決於未觀測的值本身（如「正因為這次考差所以缺考」，而那次分數沒被記錄）。

退出偏誤（dropout bias） 的危險在於：若流失的多是低成就學生（MAR 或 MNAR），到了學期末，「存活」下來的樣本平均水準被人為墊高，讓你誤以為全班大幅進步——但那只是倖存者偏差。

好消息是，成長模型在 MAR 假設下，透過全資訊最大概似（FIML） 估計，能用上每位學生所有可得的測量（即使有人只測了兩次），不必整列刪除，從而得到一致的估計。這也是成長模型相對於「先算每人變化量再比較」這類舊方法的一大優勢。但 MNAR 無法單靠統計解決，只能靠研究設計（盡力追蹤流失者）、敏感度分析，並在報告中誠實揭露流失率與流失者特徵。

重點回顧

橫斷看的是個體間差異、縱貫看的是個體內變化；橫斷推論「成長」會混入世代效應，縱貫追蹤同一群人才能把時間變項弄乾淨。
重複測量天生相依，忽略它會低估標準誤、虛報顯著；成長模型把相依明確建模成隨機截距與隨機斜率。
LGM 用兩個人各一份的潛在參數描述整條軌跡：隨機截距是初始水準、隨機斜率是成長率，而兩者的共變 $\tau_{01}$ 揭示「追趕」或「馬太效應」。
時間編碼決定截距的意義，0 放哪裡截距就解釋成哪裡；成長不必是直線，可用多項式、自由載荷或分段成長捕捉非線性。
LGM 與多層次模型數學等價，只是 SEM 與迴歸兩種傳統的包裝；遺漏值在 MAR 下可用 FIML 處理，但退出偏誤與 MNAR 需靠設計與誠實揭露。

深入探討（研究所視角）

邊際分布與相依結構。 把 Level 2 代入 Level 1，線性成長模型的合併式為 $y_{ti} = \gamma_{00} + \gamma_{10}\lambda_t + (u_{0i} + u_{1i}\lambda_t + \varepsilon_{ti})$。括號內的複合誤差使得同一個體在時間 $t$ 與 $t'$ 的觀測共變為

$$ \mathrm{Cov}(y_{ti}, y_{t'i}) = \tau_{00} + \tau_{01}(\lambda_t + \lambda_{t'}) + \tau_{11}\lambda_t\lambda_{t'} $$

注意這個共變隨時間變化——成長模型隱含一個「隨時間擴張」的異質變異結構。當 $t=t'$ 時，$\mathrm{Var}(y_{ti}) = \tau_{00} + 2\tau_{01}\lambda_t + \tau_{11}\lambda_t^2 + \sigma^2_\varepsilon$，是 $\lambda_t$ 的二次函數。這正是隨機斜率模型與「複合對稱（compound symmetry）」假設的重複測量 ANOVA 的根本差異：後者假設所有時間點等變異、等共變，前者允許變異隨成長軌跡展開而放大或收縮。當 $\tau_{11}=\tau_{01}=0$（僅隨機截距），才退化回複合對稱。

估計理論。 參數透過最大概似估計。個體 $i$ 的邊際概似為對隨機效果積分：

$$ L_i(\boldsymbol{\theta}) = \int p(\mathbf{y}_i \mid \mathbf{u}_i)\, p(\mathbf{u}_i)\, d\mathbf{u}_i $$

在常態-常態的線性情形，此積分有封閉解，$\mathbf{y}_i \sim \mathcal{N}(\mathbf{X}_i\boldsymbol{\gamma},\ \mathbf{Z}_i\boldsymbol{\Tau}\mathbf{Z}_i^\top + \sigma^2\mathbf{I})$，可用 ML 或 REML 求解；REML 對變異成分的估計較不偏，但比較固定效果不同的巢狀模型時應改用 ML 的概似比檢定。當成長為非線性於隨機效果（如 logistic 成長）或反應為非常態（如二元、計數），積分無封閉解，需數值方法：高斯-厄米特求積（Gauss-Hermite quadrature）、拉普拉斯近似，或貝氏 MCMC。

FIML 與遺漏機制的形式化。 FIML 的有效性建立在「概似在 MAR 下可忽略（ignorability）」的定理之上：若遺漏指示子 $\mathbf{R}$ 滿足 $p(\mathbf{R}\mid \mathbf{y}_{obs}, \mathbf{y}_{mis}) = p(\mathbf{R}\mid \mathbf{y}_{obs})$，則遺漏機制可從概似中分離，對觀測資料的概似直接最大化即得一致估計，無需顯式建模 $\mathbf{R}$。MNAR 則違反此條件，需轉向選擇模型（selection model） 或型態混合模型（pattern-mixture model） 聯合建模 $\mathbf{y}$ 與 $\mathbf{R}$，但這類模型對未檢定的分布假設高度敏感，因此 MNAR 分析的標準做法是敏感度分析而非單一「正確」模型。

與其他取向的連結。 成長混合模型（Growth Mixture Modeling, GMM）在 LGM 上加一層潛在類別，假設母體由數個各有不同平均軌跡的次群體組成，能識別「持續進步組／高原組／衰退組」等軌跡型態，但類別數的決定需謹慎（BIC、entropy、理論詮釋並用，且易過度抽取類別）。連續時間取向則用隨機微分方程或潛在差分分數模型（latent change score）刻畫變化的「動態」，把成長率本身建模為依賴當前狀態的函數，更貼近「學習速度受現有能力調節」的理論。最後須強調：成長模型描述的是關聯性的時序型態，本身不保證因果。要對「介入是否導致成長」下因果結論，仍需隨機分派、或結合中斷時間序列、雙重差分等準實驗設計與其識別假設。

成長模型進階：共變結構、收縮估計與條件成長

--

1

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings