一句話重點
哈佛一項 194 名物理大學生的 crossover RCT 顯示,建立在「主動學習」原則上的 AI 導師,比傳統課堂主動學習教學讓學生學得更多、效果量達 0.73~1.3 SD,且花的時間更少——關鍵不在「用 AI」,而在 AI 是否會逐步引導、提問與即時回饋。
研究發現了什麼
Kestin, Miller, Klales, Milbourne 與 Ponti(2025)發表於 Scientific Reports(Nature 旗下,15:17458)的研究,以哈佛 194 名物理大學生進行 crossover 隨機對照試驗(RCT)。研究者自製了一套 AI 導師「PS2 Pal」,與課堂中由教師帶領的主動學習對照,兩組教授完全相同的內容。
結果相當突出:AI 組學得顯著更多,效果量落在 0.73~1.3 個標準差(大效果),學習增益超過控制組的兩倍。更難得的是,AI 組花的時間還更少(49 分鐘 vs 60 分鐘)。
- 中位後測分數:AI 組 4.5 vs 控制組 3.5
- 組間差異經 Mann-Whitney 檢定,p<10⁻⁸(極顯著)
研究者反覆強調的關鍵設計:這套 AI 導師刻意建立在與課堂相同的「主動學習」教學原則上——逐步引導、向學生提問、給予即時回饋,而不是單純把答案告訴學生。換言之,AI 之所以有效,是因為它複製了好的教學法,而非因為它是 AI。
本研究為哈佛單一族群、僅兩週的短期介入、由作者自行打造的導師,且可能存在新奇效應。這些漂亮的數字反映的是「一套設計良好的引導式 AI 導師,在特定情境下的表現」,不可外推成「只要用 AI 就能拿到 0.73~1.3 SD」。換到不同學科、不同學生母群、長期使用後,效果量很可能會收斂。
教師可以怎麼做
把「主動學習」寫進 AI 的指令
在 AI 導師的 system prompt 明確要求它逐步引導、先提問再揭示、給即時回饋,並禁止直接給最終答案,重現本研究 PS2 Pal 的核心設計。
內容對齊、變因受控
讓 AI 導師教與你課堂相同的內容。研究的可信度來自「兩組教一樣的東西」,課堂實作時也應確保 AI 與教學進度同步。
設計前後測量學習增益
本研究的證據是後測分數。請在介入前後各做一次小測驗,用增益(gain)而非單次分數來判斷成效。
用 crossover 設計兼顧公平
讓全班輪流體驗 AI 導師與傳統教學,既能比較成效,又避免「只有一半學生享受到好處」的倫理問題。
同時記錄學習時間
AI 組用更少時間(49 vs 60 分)達到更好成績。除了分數,也別忘了測量效率。
搭配 Uedu 工具
用 ClassroomGPT 重現本研究的「逐步引導式 AI 導師」:在 system prompt 寫入主動學習原則(先提問、給線索、即時回饋、不直接給答案),並把課程教材上傳到 RAG 頻道知識庫,讓 AI 的引導緊扣你課堂教的相同內容,而非泛泛而談。成效指標設為:前後測增益,以及與傳統教學交叉(crossover)的後測差。
用線上測驗系統與 AI 自動出題快速產出對齊內容的前後測題組,並用 Bloom 認知層次分析檢視 AI 引導是否真的把學生推向更高的認知層次,而不只是記憶。
挑一個你課堂最常見的物理/概念迷思,在 mygpts 自建一個頻道,於 system prompt 寫上「用蘇格拉底式提問引導學生自己推導,絕不直接給答案」。讓半數學生先用它、半數先聽傳統講解,兩週後比較雙方的後測中位數,親手複製一次這個 crossover 設計。
結語
哈佛的 RCT 給了我們目前最硬的證據:AI 導師之所以能贏過課堂,不是因為它是 AI,而是因為它把「主動學習」做對了。把好的教學原則寫進 AI、用前後測誠實量測、並對單一族群短期結果保持謙遜——這才是把這份 0.73~1.3 SD 轉化為自己課堂可信成效的正確路徑。