一個老問題:個別化指導為何有效
教育科技的北極星,是 Bloom 1984 年的「2 sigma 問題」:接受一對一精熟教學的學生,平均表現比傳統班級高約兩個標準差——但一對一師資無法規模化。生成式 AI 重新點燃了「能否以可規模化的方式逼近一對一指導」的希望。要嚴肅評估這個希望,得用學習科學而非直覺。
認知負荷與「合意的困難」
有效學習受認知負荷理論約束:工作記憶有限,教學設計應降低無關負荷、管理內在負荷。但「越輕鬆 ≠ 學越好」——Bjork 的合意的困難(desirable difficulties) 指出,提取練習、間隔複習、交錯學習等讓當下感覺更費力的策略,反而強化長期保留與遷移。這帶出一個核心張力:
AI 若把所有困難都替學生「磨平」,可能移除了學習賴以發生的合意困難——這正是「思考外包」之所以有害的學理根據。
生成效應:為何「自己產出」不可取代
生成效應(generation effect) 指自行產生答案比被動閱讀記得更牢。當 AI 直接代寫,學生跳過了「卡關 → 提取 → 重構」這段最有價值的歷程。實證上,學習的增益往往來自掙扎與回饋,而非順暢與答案。因此 AI 在教育中的設計原則,不是「給答案更快」,而是「在維持必要難度的前提下提供精準鷹架與回饋」。
從 ITS 到 LLM 導師:證據怎麼說
智慧型導師系統(ITS) 數十年的研究(VanLehn 等)顯示:精心設計的 ITS 效果可逼近人類導師,關鍵在即時、針對性的步驟級回饋。生成式 AI 把 ITS 的門檻大降——能即時生成個人化解釋、出題、批改。但須謹慎:
- 幻覺會把錯誤的知識以高自信傳遞,對初學者尤其危險。
- 近期研究對「AI 導師」的效果好壞參半,取決於是否引導思考、是否防止學生淪為被動接收。
設計原則:蘇格拉底式 vs. 盡力回答
把上述學理落地,AI 在教育中應依情境採不同互動風格:
- 蘇格拉底式(以提問引導學生自己想)——適合培養思考與後設認知,正是 Uedu AIDA 優學伴的設計哲學。
- 盡力回答 + 標註來源——適合查找與澄清,正是課程 ClassroomGPT 助教的定位(並以 RAG 引用教材,降低幻覺)。
真正要培養的能力
未來的關鍵素養,不是「會不會用 AI」,而是「能否在使用 AI 的同時,保留學習所需的認知投入與獨立判斷」。把 AI 當強化思考的夥伴而非取代思考的代工——工具會一直變,這個以學習科學為據的原則不會。
深入探討(研究所視角)
把「AI 當夥伴」形式化為學習者建模
要讓生成式 AI 真正作為學習夥伴而非代寫工具,核心問題是估計學習者的潛在知識狀態 $\theta_t$ 並據此調整鷹架(scaffolding)。經典的貝氏知識追蹤(BKT)以隱馬可夫模型描述:技能在「未掌握」與「已掌握」間以轉移機率 $p(T)$ 演化,觀測到的作答正確與否則受 slip 機率 $p(S)$ 與 guess 機率 $p(G)$ 干擾。其後驗更新為
$$p(\theta_{t}=1 \mid x_{1:t}) = \frac{p(x_t\mid \theta_t=1)\,\big[\,p(\theta_{t-1}=1\mid x_{1:t-1}) + (1-p(\theta_{t-1}=1\mid x_{1:t-1}))\,p(T)\,\big]}{\sum_{\theta_t} p(x_t\mid\theta_t)\,p(\theta_t\mid x_{1:t-1})}.$$
深度知識追蹤(DKT)改以 RNN/Transformer 直接擬合 $p(x_{t+1}\mid x_{1:t})$,犧牲 BKT 的參數可解釋性以換取對技能交互與遺忘曲線的表徵力。一個未解的張力是:LLM tutor 雖能即時生成提示,卻缺乏顯式的 $\theta_t$ 後驗,使得「何時該給線索、何時該退位」難以最佳化——這正是把生成式對話與序列化學習者模型耦合的前沿課題。
鷹架的最佳化視角與「最近發展區」
Vygotsky 的最近發展區(ZPD)可重述為一個提示強度的控制問題:設提示等級為 $a_t$、學習增益為即時表現與長期保留之差,則理想助教在求解
$$\max_{\pi}\ \mathbb{E}\!\left[\sum_{t} \gamma^t\, R\big(\theta_t, a_t\big)\right],\quad R = \underbrace{\Delta\theta_t}_{\text{學習}} - \lambda\,\underbrace{c(a_t)}_{\text{依賴代價}},$$
其中懲罰項 $c(a_t)$ 對「直接給答案」課以高成本,形式化了「代寫會抑制學習」的直覺。這與認知負荷理論呼應:過度的外在鷹架降低 germane load,反而削弱基模建構。專家逆轉效應(expertise reversal effect)進一步指出最適 $a_t$ 隨 $\theta_t$ 遞減,意味著靜態提示策略必然次佳,需要隨學習者狀態自適應。
評量、可信度與開放問題
當生成內容可由 AI 代勞,評量的效度(validity)與其說是測「產出」,不如說是測「歷程」。一條方向是把學習軌跡視為隨機過程並抽取過程性特徵(如修訂熵、求助時序),這與 Educational Omics 的多模態整合一脈相承:跨 Cognomics、Linguomics 等維度的聯合分佈 $p(\text{outcome}\mid \text{cognitive}, \text{linguistic}, \text{physio})$ 提供比單一成績更豐富的因果線索。然而開放難題仍多:其一是混淆——觀測到的進步究竟來自學習,抑或來自 AI 的代理表現(performance vs. learning 的可辨識性問題);其二是 RLHF 對齊出的助教傾向「討好式」回答,可能與「製造合宜困難(desirable difficulties)」的教學目標直接衝突;其三是生成式回饋的幻覺風險使得自動化形成性評量需要可信度校準。這些問題把教育測量學、因果推論與大型語言模型對齊三條脈絡緊密交織在一起。