一句話重點
AI 適性學習系統(adaptive learning)——智慧家教系統(ITS)的現代版——能依學習者程度即時調整內容與難度,統合分析顯示其認知學習成效達 g = 0.70 的中至大效果;但證據同時提醒:真正調整難度的「深度適性」才有大效果,只客製興趣或回饋的「表面個人化」效果很小。
研究發現了什麼
第一條證據線來自 Wang 等(2024),發表於 Journal of Educational Computing Research 62(6):1568–1603。研究團隊搜尋 18 個資料庫,納入 2010–2022 年間 45 個獨立研究進行統合分析,比較 AI 適性學習與非適性教學的差異。結果:對認知學習成效的合併效果量為 g = 0.70——以教育介入的慣例(0.2 小、0.5 中、0.8 大)來看,這是中至大的效果,相當可觀。
第二條證據線把鏡頭拉到「個人化」的內部差異。Major、Francis 與 Tsapali(2021)發表於 British Journal of Educational Technology,統合 16 個隨機對照試驗(RCT)、共 53,029 名學習者,發現科技支援的個人化學習整體效果量僅 0.18(p = 0.001)——顯著但偏小。關鍵在子群分析:
- 「適應學習者程度」的高個人化子群:效果量達 0.35,約為整體的兩倍。
- 僅連結學習者興趣、或僅提供個人化回饋的設計:效果量遠低於前者。
兩篇研究合起來指向同一個核心啟示:適性的「含金量」在於難度與程度的真實調整。把學生名字放進題目、推薦他喜歡的主題,都只是表面個人化;系統必須根據學生當下的表現,動態決定下一步給什麼難度的內容,效果才會放大。
第一,Wang 等(2024)的 g = 0.70 是總體合併估計,效果受出版型態、學段、學科、介入時長、研究設計顯著調節,異質性高,不能假設每門課都能複製這個量級。第二,Major 等(2021)的樣本全數來自低收入/中等收入國家(LMIC)的 6–15 歲 K-12 學習者,請勿直接外推到台灣高教情境——它的價值在於揭示「深度適性 > 表面個人化」的相對排序,而非提供大學課堂的絕對效果量。
教師可以怎麼做
先測程度,再分派任務
學期初或單元前用前測建立每位學生的起點剖面,依此把學生分到不同難度的任務軌道,而不是全班同一份練習。
把「難度」做成可調的階梯
為同一個學習目標準備基礎、進階、挑戰三個層級的題目或閱讀材料。適性的本體是難度階梯,沒有階梯就沒有東西可以「適」。
用表現觸發升降級,而非自由選擇
規則明確化:連續答對即升一級、連續卡關即降一級並補充鷹架。讓調整由表現資料驅動,避免學生長期停留在舒適區。
分辨深度適性與表面個人化
檢視你(或你採購的系統)的「個人化」:它真的在調整內容難度,還是只在換例子、換稱呼?把資源投在前者——證據顯示那才是 0.35 與更小效果的分水嶺。
追蹤分組增益,不只看平均
適性學習的價值常展現在不同起點學生的增益差異。分別計算低、中、高起點組的前後測成長,才看得出系統是否真的「接住」了每一群學生。
搭配 Uedu 工具
在 Uedu 上組一條完整的適性管線:先用 UCG 認知測驗或線上測驗前測確認學生程度;再讓 ClassroomGPT(或蘇格拉底式的 AIDA 優學伴)依程度給不同難度的任務與提問——在 system prompt 中明定「依學生前測層級調整題目難度與鷹架密度」。搭配 RAG 頻道知識庫上傳分層教材,讓 AI 的適性回應有出處、扣課程。成效指標:以前後測認知成長為主指標,並比較不同程度分組的學習增益,檢驗適性設計是否對各起點的學生都有效。
用線上測驗系統的 AI 自動出題快速產生同一目標的多難度題庫,解決「難度階梯」的備課成本;再以 Bloom 認知層次分析檢視不同層級任務是否真的對應到不同認知層次(理解 → 應用 → 分析),確保你的「適性」調的是認知負荷,不是表面包裝。
下個單元開始前,先發一份 10 題線上前測,依結果把學生分成兩軌:高分組做挑戰版任務、其餘做基礎版加鷹架。單元結束後用同一份後測收尾,比較兩軌各自的前後測增益——這就是你課堂的第一筆適性學習數據。
結語
適性學習的證據給了一個清楚的設計準則:g = 0.70 的潛力屬於「真正調整難度」的系統(Wang 等, 2024),而只換包裝的表面個人化,效果可能只剩 0.18(Major 等, 2021)。與其問「要不要導入 AI 個人化」,不如問:我的課程裡,難度真的會隨學生而動嗎?從一份前測與一座難度階梯開始,讓數據替你回答。