縱貫資料與成長模型:追蹤同一群人的學習軌跡
從橫斷快照到個別軌跡——用潛在成長曲線模型看見學習如何隨時間彎折
為什麼「期末考進步了 10 分」可能騙了你?
想像兩位教師在學期末核對成績。甲班期初平均 60 分、期末平均 70 分;乙班期初 65 分、期末 72 分。乍看之下甲班「進步 10 分」、乙班「只進步 7 分」,甲班贏了。但若有人問:「班上是不是每個學生都進步了同樣多?有沒有人原本很高、後來不增反退?進步速度快的學生,是不是一開始就比較弱、所以有較大空間補?」——這些問題,單看兩個平均值一律答不出來。
平均數只告訴我們群體的「集體位移」,卻抹去了每一條學習軌跡的形狀。要回答「誰、從哪裡出發、用多快的速度、朝哪個方向走」,我們需要的不是橫斷面的兩張快照,而是縱貫資料與成長模型。這正是 Educational Omics 時序維度的核心關懷:學習不是一個分數,而是一條會隨時間彎折的曲線。

橫斷設計 vs 縱貫設計:兩種看世界的方式
橫斷研究(cross-sectional) 在單一時間點對不同個體取樣。例如同時測量大一、大二、大三、大四學生的批判思考分數,用年級之間的差異推論「隨年級增長的趨勢」。它便宜、快速,但有一個致命假設:不同年級的學生「可比」。
縱貫研究(longitudinal) 則對同一群個體在多個時間點重複測量。同一批學生從大一追蹤到大四,每年量一次。它能直接觀察「個體內的變化」(within-person change),而非僅靠「個體間差異」(between-person difference)去推測。
兩者最深刻的分歧在於世代效應(cohort effect)。橫斷資料中,大四學生與大一學生不只差在「年資」,他們入學年份不同、課綱不同、入學門檻不同。你以為量到的是「成長」,實際上混入了世代差異。縱貫設計追蹤同一群人,把世代固定下來,才讓「時間」這個變項真正乾淨。
代價是縱貫研究昂貴、耗時,而且會遇到橫斷研究沒有的麻煩:重複測量帶來的資料相依性,以及隨時間累積的遺漏值。
重複測量為什麼不能用普通迴歸?
普通最小平方迴歸(OLS)的核心假設之一是觀測值彼此獨立。但縱貫資料天生違反這條:同一位學生在第 1 週、第 5 週、第 10 週的三個分數,彼此高度相關——能力強的學生三次都偏高,能力弱的三次都偏低。
我們可以把每一次測量值拆解成兩個來源的變異:
$$ y_{ti} = \underbrace{(\text{個體 } i \text{ 的真實水準})}_{\text{個體間 between}} + \underbrace{(\text{第 } t \text{ 次的偏離})}_{\text{個體內 within}} $$
同一個體的多次測量共享了「個體真實水準」這一項,於是它們不獨立。若忽略這層相依、硬套 OLS,標準誤會被嚴重低估,導致你過度自信地宣稱「顯著」——這是縱貫分析最常見的統計災難。
成長模型的做法,是把這種相依明確建模,而不是假裝它不存在。
潛在成長曲線模型(LGM):把「軌跡」變成參數
潛在成長曲線模型(Latent Growth Model, LGM)的核心洞見是:每位學生的整條軌跡,可以用少數幾個「人各一份」的潛在參數來描述。 最常見的線性版本,每位學生 $i$ 在時間 $t$ 的觀測值寫成:
$$ y_{ti} = \beta_{0i} + \beta_{1i}\,\lambda_t + \varepsilon_{ti} $$
其中 $\lambda_t$ 是時間編碼(time coding),$\varepsilon_{ti}$ 是測量誤差。兩個關鍵參數:
- $\beta_{0i}$:隨機截距(random intercept),代表學生 $i$ 的「初始水準」——時間起點的能力。
- $\beta_{1i}$:隨機斜率(random slope),代表學生 $i$ 的「成長率」——單位時間能力增加多少。
這兩個參數本身又被視為來自群體分布:
$$ \beta_{0i} = \gamma_{00} + u_{0i}, \qquad \beta_{1i} = \gamma_{10} + u_{1i} $$
$\gamma_{00}$、$\gamma_{10}$ 是固定效果(群體的平均起點與平均成長率),$u_{0i}$、$u_{1i}$ 是隨機效果(個體偏離群體的量)。隨機效果通常假設服從多元常態:
$$ \begin{pmatrix} u_{0i} \\ u_{1i} \end{pmatrix} \sim \mathcal{N}\!\left( \begin{pmatrix} 0 \\ 0 \end{pmatrix},\ \begin{pmatrix} \tau_{00} & \tau_{01} \\ \tau_{01} & \tau_{11} \end{pmatrix} \right) $$
這個共變異矩陣藏著教育研究最有趣的問題:
- $\tau_{00}$:學生起點的個別差異有多大?
- $\tau_{11}$:學生成長率的個別差異有多大?(若 $\tau_{11}\approx 0$,代表大家進步速度差不多,否則有人衝刺有人停滯。)
- $\tau_{01}$:起點與成長率的相關。若為負,代表起點低的學生反而成長得快(追趕、補償效應);若為正,代表強者愈強(馬太效應)。
只用一個「平均進步 10 分」,這三個量全被抹掉了。
時間編碼:起點放哪裡決定了截距的意義
$\lambda_t$ 的設定看似技術細節,實則決定參數的解讀。假設四次測量在第 0、5、10、15 週:
- 編碼 $\lambda = (0, 5, 10, 15)$:截距 $\beta_{0i}$ 是「第 0 週(學期初)的水準」,斜率單位是「每週」。
- 編碼 $\lambda = (-7.5, -2.5, 2.5, 7.5)$(置中):截距變成「學期中點的水準」,常用來降低截距與斜率的相關、改善估計穩定性。
- 編碼 $\lambda = (0, 1, 2, 3)$:斜率單位變成「每次測量間隔」。
重點是:截距永遠是「時間 = 0 那一點」的預測值,你把 0 放在哪,截距就解釋成哪裡。實務上建議把 0 放在實質上有意義的時間點(學期初或學期末),讓 $\gamma_{00}$ 可被直接詮釋。
線性不夠用時:非線性成長
學習很少是直線。語言詞彙量常呈先快後慢的對數型;複雜技能可能有「高原期」後再突破。LGM 可以彈性擴充:
- 多項式成長:加入二次項 $\beta_{2i}\lambda_t^2$ 捕捉加速或減速。
- 自由估計斜率載荷(free-loading):固定 $\lambda_1=0$、$\lambda_2=1$,其餘 $\lambda_3, \lambda_4$ 讓資料自己估,曲線形狀由資料決定,不預設線性。
- 分段(piecewise)成長:在某個轉折點(例如導入新教學介入)前後估計兩段不同斜率,直接量化介入的效果。
選哪一種,取決於理論假設與模型適配指標,而非「能跑就好」。
隨機截距、隨機斜率與多層次模型的等價關係
這裡是一個容易讓人困惑、卻極為重要的事實:LGM 與多層次模型(Multilevel Model, MLM;又稱階層線性模型 HLM)在數學上是同一個模型的兩種包裝。
多層次模型把資料看成兩層巢狀結構:時間點(Level 1)巢狀於個體(Level 2)。它的方程式寫成:
$$ \text{Level 1:}\quad y_{ti} = \beta_{0i} + \beta_{1i}\,\text{Time}_{ti} + \varepsilon_{ti} $$ $$ \text{Level 2:}\quad \beta_{0i} = \gamma_{00} + u_{0i}, \quad \beta_{1i} = \gamma_{10} + u_{1i} $$
把這兩層代入合併,得到混合效果模型的標準形式。比較它與前面 LGM 的式子——完全一樣。差別只在傳統:MLM 出身於迴歸/變異數成分的觀點,用軟體如 lme4、HLM;LGM 出身於結構方程模型(SEM)的觀點,把截距與斜率畫成潛在變項,用軟體如 lavaan、Mplus。
兩者的實務分工:
- MLM 對「不等間距、每人測量次數不同」的資料更靈活(時間是一個變項而非固定欄位)。
- LGM 因為在 SEM 框架內,更容易把成長因子接到其他潛在變項、做中介、加入測量模型(用多個題目估計潛在能力)。
理解兩者等價,能讓你在文獻裡看到 HLM、混合模型、LGM、隨機係數模型等不同名詞時,知道它們指向同一個統計核心。
帶數字的小範例:解讀一份成長模型輸出
假設我們追蹤一門課 200 位學生的每月寫作評分(0–100),測量在第 0、1、2、3 月,時間編碼 $\lambda=(0,1,2,3)$。LGM 估計結果(虛構示意):
| 參數 | 估計值 | 解讀 |
|---|---|---|
| $\gamma_{00}$(平均截距) | 58.0 | 群體第 0 月平均 58 分 |
| $\gamma_{10}$(平均斜率) | 4.2 | 群體平均每月進步 4.2 分 |
| $\tau_{00}$(截距變異) | 64.0 | 起點標準差 $\sqrt{64}=8$ 分 |
| $\tau_{11}$(斜率變異) | 2.25 | 成長率標準差 $\sqrt{2.25}=1.5$ 分/月 |
| $\tau_{01}$(截距-斜率共變) | $-6.0$ | 起點與成長率呈負相關 |
先算群體平均軌跡:第 3 月預測 $58.0 + 4.2\times 3 = 70.6$ 分。
再看個別差異。起點標準差 8 分,代表約 95% 學生的起點落在 $58 \pm 1.96\times 8 \approx [42, 74]$ 分。成長率標準差 1.5 分/月,代表多數學生每月進步落在 $4.2 \pm 1.96\times 1.5 \approx [1.3, 7.1]$ 分——有人幾乎停滯,有人飛速。
最關鍵是 $\tau_{01}=-6.0$,換算相關係數:
$$ r = \frac{\tau_{01}}{\sqrt{\tau_{00}\,\tau_{11}}} = \frac{-6.0}{\sqrt{64\times 2.25}} = \frac{-6.0}{12} = -0.5 $$
中度負相關,意味著起點越低的學生,成長越快——一個追趕(compensatory)的故事。若只報告 $\gamma_{10}=4.2$「平均每月進步 4.2 分」,這個重要的教學洞見就被完全掩蓋了。
individual trajectory:把每一條曲線看回來
成長模型最迷人的,是它讓我們同時擁有兩個層次的視角:群體的平均趨勢,與每位學生的個別軌跡(individual trajectory)。
估出固定效果後,我們可以用經驗貝氏(empirical Bayes)/最佳線性無偏預測(BLUP) 為每位學生回推其隨機效果 $\hat{u}_{0i}, \hat{u}_{1i}$,進而得到該生專屬的截距與斜率。值得注意的是,這些個別估計值會被「收縮(shrinkage)」往群體均值靠攏——測量次數越少、誤差越大的學生,收縮越強。這是有意的:當某位學生的資料稀薄時,模型理性地借用群體資訊,避免被少數雜訊點誤導。
把每位學生的 $\hat{\beta}_{0i}, \hat{\beta}_{1i}$ 畫成散佈圖,等於得到一張「學習軌跡地圖」:右上角是起點高、成長也快的學生;左上角是起點低但快速追趕的學生;右下角則是起點高卻停滯甚至退步的學生——後者往往是最需要關注、卻最容易被「班級平均在進步」掩蓋的一群。在 Uedu 平台上,這正是把多次測驗、作業、對話軌跡串成時序,讓教師看見個別學習者真實形狀的意義所在。
但任何個別軌跡的詮釋都受限於模型假設:我們假設了成長形狀(線性/非線性)、誤差結構、隨機效果常態性。模型只是對真實軌跡的近似,不是真相本身;用它做高風險決策(如分流、補救名單)前,務必檢視適配度與殘差。
遺漏值與退出偏誤:縱貫研究的暗礁
縱貫研究幾乎必然遇到樣本流失(attrition):有人轉學、有人缺考、有人中途退出。問題不在「少了幾筆」,而在為什麼少。統計上區分三種遺漏機制:
- MCAR(完全隨機遺漏):遺漏與任何變項都無關(如隨機當機掉資料)。最理想但罕見。
- MAR(隨機遺漏):遺漏可由已觀測的資料解釋(如低分學生較易退出,而我們有他們先前的分數)。
- MNAR(非隨機遺漏):遺漏取決於未觀測的值本身(如「正因為這次考差所以缺考」,而那次分數沒被記錄)。
退出偏誤(dropout bias) 的危險在於:若流失的多是低成就學生(MAR 或 MNAR),到了學期末,「存活」下來的樣本平均水準被人為墊高,讓你誤以為全班大幅進步——但那只是倖存者偏差。
好消息是,成長模型在 MAR 假設下,透過全資訊最大概似(FIML) 估計,能用上每位學生所有可得的測量(即使有人只測了兩次),不必整列刪除,從而得到一致的估計。這也是成長模型相對於「先算每人變化量再比較」這類舊方法的一大優勢。但 MNAR 無法單靠統計解決,只能靠研究設計(盡力追蹤流失者)、敏感度分析,並在報告中誠實揭露流失率與流失者特徵。
重點回顧
- 橫斷看的是個體間差異、縱貫看的是個體內變化;橫斷推論「成長」會混入世代效應,縱貫追蹤同一群人才能把時間變項弄乾淨。
- 重複測量天生相依,忽略它會低估標準誤、虛報顯著;成長模型把相依明確建模成隨機截距與隨機斜率。
- LGM 用兩個人各一份的潛在參數描述整條軌跡:隨機截距是初始水準、隨機斜率是成長率,而兩者的共變 $\tau_{01}$ 揭示「追趕」或「馬太效應」。
- 時間編碼決定截距的意義,0 放哪裡截距就解釋成哪裡;成長不必是直線,可用多項式、自由載荷或分段成長捕捉非線性。
- LGM 與多層次模型數學等價,只是 SEM 與迴歸兩種傳統的包裝;遺漏值在 MAR 下可用 FIML 處理,但退出偏誤與 MNAR 需靠設計與誠實揭露。
深入探討(研究所視角)
邊際分布與相依結構。 把 Level 2 代入 Level 1,線性成長模型的合併式為 $y_{ti} = \gamma_{00} + \gamma_{10}\lambda_t + (u_{0i} + u_{1i}\lambda_t + \varepsilon_{ti})$。括號內的複合誤差使得同一個體在時間 $t$ 與 $t'$ 的觀測共變為
$$ \mathrm{Cov}(y_{ti}, y_{t'i}) = \tau_{00} + \tau_{01}(\lambda_t + \lambda_{t'}) + \tau_{11}\lambda_t\lambda_{t'} $$
注意這個共變隨時間變化——成長模型隱含一個「隨時間擴張」的異質變異結構。當 $t=t'$ 時,$\mathrm{Var}(y_{ti}) = \tau_{00} + 2\tau_{01}\lambda_t + \tau_{11}\lambda_t^2 + \sigma^2_\varepsilon$,是 $\lambda_t$ 的二次函數。這正是隨機斜率模型與「複合對稱(compound symmetry)」假設的重複測量 ANOVA 的根本差異:後者假設所有時間點等變異、等共變,前者允許變異隨成長軌跡展開而放大或收縮。當 $\tau_{11}=\tau_{01}=0$(僅隨機截距),才退化回複合對稱。
估計理論。 參數透過最大概似估計。個體 $i$ 的邊際概似為對隨機效果積分:
$$ L_i(\boldsymbol{\theta}) = \int p(\mathbf{y}_i \mid \mathbf{u}_i)\, p(\mathbf{u}_i)\, d\mathbf{u}_i $$
在常態-常態的線性情形,此積分有封閉解,$\mathbf{y}_i \sim \mathcal{N}(\mathbf{X}_i\boldsymbol{\gamma},\ \mathbf{Z}_i\boldsymbol{\Tau}\mathbf{Z}_i^\top + \sigma^2\mathbf{I})$,可用 ML 或 REML 求解;REML 對變異成分的估計較不偏,但比較固定效果不同的巢狀模型時應改用 ML 的概似比檢定。當成長為非線性於隨機效果(如 logistic 成長)或反應為非常態(如二元、計數),積分無封閉解,需數值方法:高斯-厄米特求積(Gauss-Hermite quadrature)、拉普拉斯近似,或貝氏 MCMC。
FIML 與遺漏機制的形式化。 FIML 的有效性建立在「概似在 MAR 下可忽略(ignorability)」的定理之上:若遺漏指示子 $\mathbf{R}$ 滿足 $p(\mathbf{R}\mid \mathbf{y}_{obs}, \mathbf{y}_{mis}) = p(\mathbf{R}\mid \mathbf{y}_{obs})$,則遺漏機制可從概似中分離,對觀測資料的概似直接最大化即得一致估計,無需顯式建模 $\mathbf{R}$。MNAR 則違反此條件,需轉向選擇模型(selection model) 或型態混合模型(pattern-mixture model) 聯合建模 $\mathbf{y}$ 與 $\mathbf{R}$,但這類模型對未檢定的分布假設高度敏感,因此 MNAR 分析的標準做法是敏感度分析而非單一「正確」模型。
與其他取向的連結。 成長混合模型(Growth Mixture Modeling, GMM)在 LGM 上加一層潛在類別,假設母體由數個各有不同平均軌跡的次群體組成,能識別「持續進步組/高原組/衰退組」等軌跡型態,但類別數的決定需謹慎(BIC、entropy、理論詮釋並用,且易過度抽取類別)。連續時間取向則用隨機微分方程或潛在差分分數模型(latent change score)刻畫變化的「動態」,把成長率本身建模為依賴當前狀態的函數,更貼近「學習速度受現有能力調節」的理論。最後須強調:成長模型描述的是關聯性的時序型態,本身不保證因果。要對「介入是否導致成長」下因果結論,仍需隨機分派、或結合中斷時間序列、雙重差分等準實驗設計與其識別假設。