試題反應理論（IRT）進階：多元計分、多維能力與跨年連結

當反應不再非對即錯、能力不只一維，IRT 如何用 GRM／GPCM、MIRT 與尺度連結，把測量推向大規模跨年代評量？

進階 · 約 16 分鐘 ·#試題反應理論#多元計分模型#多維IRT#尺度連結#電腦化適性測驗

當題目不再是「對或錯」：李克特量表與部分給分怎麼進 IRT？

入門篇把試題反應理論（Item Response Theory, IRT）建立在「答對／答錯」的二元反應上：一條 S 形的試題特徵曲線（item characteristic curve, ICC），三個參數 $a$、$b$、$c$，再加上局部獨立與單維度假設，整套概似推論就站穩了。但真實世界的測量很少只有兩種結局。一份問卷的李克特量表（Likert scale）有「非常不同意」到「非常同意」五級；一道申論題可以拿 0、1、2、3 分的部分給分（partial credit）；一個認知作業的反應同時帶著「對不對」與「花多久」兩條訊息。這些反應都是有序多元（ordered polytomous） 的，二元 IRT 直接套不上去。

於是進階的 IRT 要回答三個入門篇刻意略過的問題：第一，當每題有 $K$ 個有序等級時，ICC 要怎麼推廣？第二，當潛在能力不只一維（讀寫、計算、空間各自獨立）時，模型如何擴張？第三，不同年度、不同題本估出來的 $\theta$ 與 $b$，憑什麼放在同一條尺度上比較？這三問分別對應多元計分模型（polytomous models）、多維 IRT（multidimensional IRT, MIRT） 與尺度連結（scale linking / equating），也正是把 IRT 從「一次小考的分析工具」推向「跨年代、大規模測驗系統」的關鍵機制。

試題反應理論 IRT進階概念示意圖

從二元到有序多元：累積機率的 GRM

最直接的推廣思路是 Samejima 的等級反應模型（graded response model, GRM），它的核心是把「拿到第 $k$ 級以上」當成一連串二元事件。假設第 $i$ 題有 $K$ 個有序等級（$0,1,\dots,K-1$），我們為每個「邊界（threshold）」$b_{ik}$ 定義一條累積機率曲線：

$$P_{ik}^{*}(\theta) = P(\text{反應} \ge k \mid \theta) = \frac{1}{1 + e^{-a_i(\theta - b_{ik})}}, \quad k = 1, \dots, K-1.$$

注意這就是一條 2PL 曲線，只是「答對」被換成「達到第 $k$ 級或以上」。鑑別度 $a_i$ 在同一題的各邊界共用（同一題的各級「靈敏度」一致），而 $b_{i1} < b_{i2} < \dots < b_{i,K-1}$ 是一組遞增的邊界難度——要爬到越高的等級，需要越高的能力。

恰好落在第 $k$ 級的機率，就是相鄰兩條累積曲線相減：

$$P_{ik}(\theta) = P_{ik}^{*}(\theta) - P_{i,k+1}^{*}(\theta),$$

其中規定 $P_{i0}^{*}(\theta) = 1$（達到 0 級以上必然成立）、$P_{iK}^{*}(\theta) = 0$（沒有比最高級更高的）。這樣每一級都對應一條鐘形的類別反應曲線（category response curve, CRC）：能力很低時最可能落在最低級，能力升高時機率峰值依序往高級移動。GRM 屬於「間接（difference）模型」——先算累積機率，再相減得各級機率。

相鄰類別的另一條路：PCM 與 GPCM

另一條主流是 Masters 的部分給分模型（partial credit model, PCM） 與其推廣 GPCM（generalized PCM）。它不走累積機率，而是直接建模「相鄰兩級之間」的轉換難度——這類稱為「直接（divide-by-total）模型」。GPCM 的每一級機率為：

$$P_{ik}(\theta) = \frac{\exp\!\left[\sum_{m=0}^{k} a_i(\theta - \delta_{im})\right]}{\sum_{r=0}^{K-1}\exp\!\left[\sum_{m=0}^{r} a_i(\theta - \delta_{im})\right]},$$

其中 $\delta_{im}$ 是第 $m$ 個步驟難度（step difficulty），代表從第 $m-1$ 級跨到第 $m$ 級所需的能力門檻（規定 $\sum_{m=0}^{0}$ 那一項為 0）。當所有題的 $a_i$ 被固定為相同常數時，GPCM 退化成 PCM，後者屬於 Rasch 家族，享有充分統計量（sufficient statistic）與題目能力分離估計的好性質。

GRM 與 GPCM 的關鍵差異在於對「邊界」的詮釋：GRM 的 $b_{ik}$ 是累積邊界，必然遞增；GPCM 的步驟難度 $\delta_{im}$ 是相鄰步驟門檻，不必然遞增——當某一中間等級很少有人選（反應分布凹陷），會出現「步驟反轉（disordered thresholds）」，這是診斷量表選項是否設計得當的重要訊號。換句話說，步驟反轉不是模型壞了，而是模型在告訴你：這個中間選項可能多餘，或受試者根本分不清它與鄰級的差別。

多元計分的試題資訊：訊息藏在哪一級

入門篇給過二元題的資訊函數 $I_i(\theta) = a_i^2 P(1-P)$。多元計分的資訊函數是各級的加權變異形式。對 GPCM，可寫成：

$$I_i(\theta) = a_i^2 \left[\sum_{k=0}^{K-1} k^2 P_{ik}(\theta) - \left(\sum_{k=0}^{K-1} k\, P_{ik}(\theta)\right)^2\right] = a_i^2 \cdot \mathrm{Var}(k \mid \theta).$$

這個式子很有啟發性：括號裡正是「在能力 $\theta$ 下，反應等級 $k$ 的條件變異數」。資訊量在「各級機率勢均力敵、最難預測會落在哪一級」的能力區間最大。相較二元題只有一個資訊峰，多元計分題往往在較寬的能力範圍都維持不錯的資訊——這正是李克特量表能用較少題數穩定測量態度構念的數理原因。一道五級題在直覺上「抵」好幾道是非題，背後就是它的資訊函數在一段連續區間都不塌下去。

動手算一下：三級部分給分題的各級機率

假設一道三級部分給分題（等級 0、1、2），用 GPCM，估得 $a_i = 1.0$，兩個步驟難度 $\delta_{i1} = -0.5$、$\delta_{i2} = 0.8$（規定 $\delta_{i0}=0$）。我們算能力 $\theta = 0$ 的學生落在各級的機率。

先算每一級的指數項（exponent），令 $z_k = \sum_{m=0}^{k} a_i(\theta - \delta_{im})$：

第 0 級：$z_0 = a_i(\theta - \delta_{i0}) = 1.0\times(0 - 0) = 0$。
第 1 級：$z_1 = z_0 + a_i(\theta - \delta_{i1}) = 0 + 1.0\times(0 - (-0.5)) = 0.5$。
第 2 級：$z_2 = z_1 + a_i(\theta - \delta_{i2}) = 0.5 + 1.0\times(0 - 0.8) = -0.3$。

取指數並求和當作分母：

$$e^{z_0} = 1.000,\quad e^{z_1} = e^{0.5} \approx 1.649,\quad e^{z_2} = e^{-0.3} \approx 0.741.$$

$$\text{分母} = 1.000 + 1.649 + 0.741 = 3.390.$$

於是各級機率：

$$P_{i0}(0) = \frac{1.000}{3.390} \approx 0.295,\quad P_{i1}(0) = \frac{1.649}{3.390} \approx 0.486,\quad P_{i2}(0) = \frac{0.741}{3.390} \approx 0.219.$$

能力中等的學生最可能拿到「部分給分」的第 1 級（機率約 0.49），合乎直覺。接著算這題在 $\theta=0$ 的資訊。先求期望等級與其平方期望：

$$E[k] = 0\times0.295 + 1\times0.486 + 2\times0.219 = 0.924,$$ $$E[k^2] = 0\times0.295 + 1\times0.486 + 4\times0.219 = 1.362.$$ $$\mathrm{Var}(k) = 1.362 - 0.924^2 = 1.362 - 0.854 = 0.508.$$

$$I_i(0) = a_i^2 \cdot \mathrm{Var}(k) = 1.0^2 \times 0.508 = 0.508.$$

對照一道難度恰為 0 的二元題，其資訊上限是 $a^2 \times 0.25 = 0.25$（當 $a=1$）。這道三級題在 $\theta=0$ 提供約 0.51 的資訊，超過二元題峰值的兩倍——這量化地說明了「為什麼多級題單位題數攜帶更多訊息」。

不只一維：MIRT 把能力變成向量

入門篇假設單維度（unidimensionality）：所有題目相關都由單一 $\theta$ 解釋。但一份「數學素養」測驗可能同時牽涉「計算流暢」與「閱讀理解」；一個跨領域評量更是天生多維。多維 IRT（MIRT） 把能力升級為向量 $\boldsymbol{\theta} = (\theta_1, \dots, \theta_D)$，題目鑑別度也升級為向量 $\boldsymbol{a}_i$。補償型（compensatory）二參數 MIRT 的答對機率為：

$$P_i(\boldsymbol{\theta}) = \frac{1}{1 + \exp\!\left[-\left(\boldsymbol{a}_i^{\top}\boldsymbol{\theta} + d_i\right)\right]},$$

其中 $d_i$ 是截距（與整體難度相關），$\boldsymbol{a}_i$ 的各分量代表這題對各維能力的負荷（loading）。「補償型」意味著某一維能力低，可由另一維高來彌補——線性組合 $\boldsymbol{a}_i^{\top}\boldsymbol{\theta}$ 只看加總。與之對照的是非補償（partially compensatory）模型，把各維機率相乘，任一維短板都會拖垮整體答對機率，較貼近「兩種能力缺一不可」的題目（例如需先讀懂題意才能計算）。

MIRT 與因素分析（factor analysis）有深刻的數學連結：二元題的 MIRT 本質上是帶 probit/logit 連結的潛在變數因素模型，$\boldsymbol{a}_i$ 對應因素負荷、$d_i$ 對應截距。這也帶來與因素分析相同的旋轉不確定性（rotational indeterminacy）：在沒有額外限制下，$\boldsymbol{\theta}$ 的座標軸可任意正交（甚至斜交）旋轉而不改變概似，因此 MIRT 的維度詮釋必須靠理論限制（如指定某些 $a$ 為 0 的簡單結構）或事後旋轉。實務上常先用平行分析或探索性 MIRT 決定維度數，再轉成驗證性結構。一個常被忽略的事實是：「多維資料硬套單維模型」會讓估出的單維 $\theta$ 變成各維的某種加權混合，DIF 與連結都可能因此系統性偏誤——這是把 IRT 用在跨領域大型評量時最常見的隱患。

尺度連結：憑什麼跨年度比較？

IRT 的能力尺度 $\theta$ 有一個與生俱來的不確定性：模型對 $\theta$ 與題目參數同時做線性變換 $\theta \to \alpha\theta + \beta$、$b \to \alpha b + \beta$、$a \to a/\alpha$ 時，答對機率完全不變（indeterminacy of scale）。為了定錨，我們通常硬性規定母體 $\theta \sim \mathcal{N}(0,1)$。但問題來了：A 年的考生在他們自己的卷子上被標準化成平均 0，B 年的考生在另一份卷子上也被標準化成平均 0——這兩個「0」根本不是同一個能力水準。要跨年度比較，必須把兩套估計連結（link） 到共同尺度。

最常見的設計是共同題錨定（anchor items / common-item design）：兩份題本共享一批錨題。錨題的真實難度不該因為換了年度而改變（這正是 IRT 參數不變性的承諾），於是我們找出線性變換 $\theta_B^* = \alpha\theta_B + \beta$，使 B 年估出的錨題參數在變換後對齊 A 年。求 $(\alpha, \beta)$ 的經典方法有平均數—平均數法（mean/mean）、平均數—標準差法（mean/sigma），以及更穩健的特徵曲線法（characteristic curve methods） ——Haebara 法與 Stocking–Lord 法。後兩者不只對齊參數的矩，而是最小化「兩套參數所畫出的試題（或測驗）特徵曲線」之間的差距。以 Stocking–Lord 為例，目標函數是錨題集上、對能力分布加權的測驗特徵曲線平方差：

$$\mathrm{SL}(\alpha,\beta) = \sum_{q} W(\theta_q)\left[\sum_{i \in \text{anchor}} P_i(\theta_q; \hat{a}_i^A, \hat{b}_i^A) - P_i\!\left(\theta_q; \tfrac{\hat{a}_i^B}{\alpha}, \alpha\hat{b}_i^B+\beta\right)\right]^2,$$

對 $(\alpha,\beta)$ 求極小。連結做好後，才談得上等化（equating）——把分數轉成可互換的報告分數。值得釐清的是：linking 是把參數放到共同尺度，equating 是更嚴格地讓「不同題本的同一報告分數代表同等能力，可互換使用」，後者對題本平行性的要求更高。沒有可靠的共同題錨定與連結，所謂「今年比去年進步 5 分」很可能只是兩把不同的尺在各說各話。

重點回顧

多元計分有兩大家族：GRM 走累積機率相減（difference 模型，邊界 $b_{ik}$ 必遞增），GPCM/PCM 走相鄰類別轉換（divide-by-total 模型，步驟難度 $\delta_{im}$ 可反轉）。步驟反轉是診斷量表選項冗餘的訊號，不是錯誤。
多級題資訊更寬廣：$I_i(\theta)=a_i^2\,\mathrm{Var}(k\mid\theta)$，一道好的李克特或部分給分題，在較寬的能力區間都維持高資訊，等效於數道二元題。
MIRT 把能力變成向量：補償型用 $\boldsymbol{a}_i^{\top}\boldsymbol{\theta}+d_i$（短板可被彌補），非補償型相乘（缺一不可）；它與因素分析同源，並繼承旋轉不確定性，維度詮釋需理論限制。
$\theta$ 尺度本質上可線性變換：跨年度、跨題本要先做尺度連結（mean/sigma、Haebara、Stocking–Lord），再談等化，否則分數不可比。
共同題錨定是連結的骨幹：靠參數不變性把不同題本對齊到同一尺度；錨題品質不佳或本身有 DIF，整套跨年比較都會失真。

深入探討（研究所視角）

多元模型的估計與可辨識性。 多元 IRT 同樣以邊際最大概似（MML）搭配 EM 求解，但多維情況下 E 步的後驗期望需要在 $D$ 維潛在空間積分，Gauss–Hermite 求積的節點數隨維度指數成長（curse of dimensionality）：$Q$ 個一維節點在 $D$ 維變成 $Q^D$ 個。實務上高維問題改用 adaptive quadrature、蒙地卡羅 EM（MCEM），或近年流行的 Metropolis–Hastings Robbins–Monro（MH-RM） 演算法與全貝氏 MCMC（如 Stan / JAGS）。可辨識性（identifiability）在多維下尤其棘手：除了前述旋轉不確定性，還需固定潛在變數的尺度（變異數設為 1）與部分負荷以避免標籤交換（label switching）。驗證性 MIRT 透過理論驅動的零負荷模式（item-by-factor 指派）來達成簡單結構與可辨識。

Rasch 的特殊地位與「specific objectivity」。 GPCM 退化為 PCM、2PL 退化為 1PL 時，模型進入 Rasch 家族，獲得一項其他 IRT 模型沒有的性質：充分統計量分離。在 Rasch 模型中，受試者的總分是其能力 $\theta$ 的充分統計量，題目的邊際次數是難度 $b$ 的充分統計量，因此可用條件最大概似（conditional maximum likelihood, CML） 在「給定總分」的條件下估計題目參數，使題目校準完全不依賴 $\theta$ 的母體分布假設——這是 Rasch 學派強調的「特定客觀性（specific objectivity）」：兩道題的難度比較不該因為拿哪一群人、哪一個能力區段去比而改變。代價是 Rasch 強制所有題等鑑別度，當資料的鑑別度確實異質時會犧牲適配度。Rasch 與 2PL/3PL 之爭，本質是「測量理論的公理優先」對上「資料適配優先」的方法論立場差異，沒有單一正解。

電腦化適性測驗（CAT）的工程現實。 入門篇指出資訊函數 $\mathrm{SE}(\hat\theta)=1/\sqrt{I(\theta)}$ 是 CAT 選題的支點：每答一題更新 $\hat\theta$，再挑當前 $\hat\theta$ 處資訊最大的題。但純「最大資訊」選題在實務上會出兩個問題。其一是題目曝光（item exposure）：高鑑別度、難度適中的「好題」會被反覆選中，少數題目承擔過半施測量，既威脅題庫安全（被洩題）又浪費題庫。對策是 Sympson–Hetter 曝光控制（為每題設一個機率閘門，讓它以受控頻率才真正被施測）、$a$-stratified 分層選題（先用低鑑別度題粗估、再用高鑑別度題精測），或對選題目標函數加入隨機化。其二是內容平衡（content balancing）：考科各子領域的題數比例必須符合測驗藍圖，不能因為某子領域的題剛好資訊高就全選它，這催生了帶約束的選題法與「shadow test」做法——每一步都先解一個整數規劃，組出一份滿足所有內容、曝光、長度約束且資訊最大的「影子完整測驗」，再從中取下一題。此外，貝氏選題準則（如最小化後驗變異的 MEPV、或 Kullback–Leibler 資訊）在估計初期 $\hat\theta$ 還很不準時，比 Fisher 資訊更穩健，因為 Fisher 資訊是「在當前點估計處」的局部量，早期容易把測驗導向錯誤難度。

回到 Uedu 的測量治理。 Uedu 的 quiz 與 UCG 認知測驗若要從「單次小考分析」走向「跨學期、跨課程的能力追蹤」，多元計分、MIRT 與尺度連結三者缺一不可：申論與評分規準（rubric）題用 GRM/GPCM 才能誠實利用部分給分的訊息；跨領域素養評量需要 MIRT 才不會把多維能力壓扁成偏誤的單維分數；而要主張「同一學生這學期比上學期成長」，就必須以共同錨題把不同學期的題本連結到同一尺度——否則所有縱貫（longitudinal）比較都建立在浮動的原點上。更進一步，認知測驗常同時記錄正確率與反應時間，這把問題推向反應時間聯合建模（如 van der Linden 的階層式速度—正確性模型，把作答速度 $\tau$ 與能力 $\theta$ 視為相關的潛在向量），讓「又快又準」與「慢而準」在計量上被區分開來。需要再次強調的是，這些進階模型全都是「假設驅動」的：多元模型有等鑑別度或邊界遞增的內隱假設、MIRT 的維度結構是研究者指定的、連結倚賴錨題的參數不變性。模型診斷（適配度檢定、殘差分析、錨題穩定性檢核、DIF 篩查）應與估計同等被重視——IRT 的力量來自它的假設，而它的風險也來自同一批假設。

← 上一篇

試題反應理論（IRT）：從答對率到難度與鑑別度的現代測量

--

1

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings