一句話重點
把 AI 聊天機器人導入課程,平均能把學生的學業成就推高約半個標準差——但這個結論建立在一個仍在快速演變、底層研究品質參差的證據基礎上,導入時要同步測量、而非照單全收。
研究發現了什麼
把零散的單一實驗收攏成一張全景圖,是統合分析(meta-analysis)的價值。Liu(2025)發表於 Journal of Computer Assisted Learning 41(4)(DOI 10.1111/jcal.70096),蒐集了 37 篇研究(2022–2025),檢驗 ChatGPT 對學生學業成就的整體效果。
結果顯示效果為中等正向:合併後的 Hedges g = 0.577(95% CI [0.395, 0.759],p < 0.001)。換句話說,使用 ChatGPT 的學生相較對照組,學業成就平均高出約 0.58 個標準差——以教育介入而言,這是值得認真看待的量級。
- 效果量:g = 0.577,落在「中等」區間(介於小效果 0.2 與大效果 0.8 之間)。
- 信賴區間:95% CI [0.395, 0.759],整段都在零以上,代表效果方向穩定為正。
- 研究數:37 篇,時間橫跨 ChatGPT 問世後的前三年。
這是一個快速演變中的領域,底層 37 篇研究的設計品質不一,且資料僅截至 2025 年,結論可能隨新證據修正。此外請特別留意:另有一篇不同的 ChatGPT 統合分析(Nature, s41599-025-04787-y)已被撤稿;本文引用的是 Liu(2025)JCAL 這篇,並非該撤稿論文,請勿混淆。
教師可以怎麼做
把 AI 當「課程內助教」而非外掛
不要只丟一個通用 ChatGPT 連結,而是嵌入課程脈絡:給定課綱、教材與評量標準,讓 AI 回應扣合本課程的學習目標。
明確界定使用情境
規範學生在哪些任務用 AI(如概念釐清、程式除錯、寫作回饋),哪些任務不用(如總結性評量),避免成效被「代寫」稀釋。
設計可比對的兩組條件
同一門課的不同班級或不同單元,有 AI 助教 vs. 無 AI 助教,用同一份評量量尺,才能算出自己課堂的效果量。
引導學生「對話而非抄答」
要求學生記錄與 AI 的提問與追問過程,把 AI 用成思考夥伴,而非答案販賣機。
持續迭代提示與角色設定
領域演變快,定期檢視 system prompt與學生回饋,每學期微調 AI 助教的行為準則。
搭配 Uedu 工具
用 ClassroomGPT 把 AI 助教正式導入課程:載入課綱與教材、設定教學風格,讓助教在課程脈絡內盡力回答學生提問;若要培養反思與認知策略,可改用 AIDA 優學伴的蘇格拉底式引導。教師也能透過 mygpts 自建頻道,針對特定單元客製專屬助教。成效指標就照 Liu(2025)的設計:比較有 AI 助教與無 AI 助教兩組課程的學業成就,算出你課堂自己的 g 值。
把指定教材上傳 RAG 頻道知識庫,讓 AI 回答有出處、可引用,降低幻覺風險;再用 Bloom 認知層次分析檢視學生與 AI 的對話究竟停在「記憶/理解」還是推進到「分析/評鑑」,作為學業成就以外的歷程性指標。
本週選一個單元開兩條路:A 班用 ClassroomGPT 助教完成練習,B 班用傳統方式。下次上課用同一份線上測驗(可搭配 AI 自動出題)收尾,把兩組分數丟進統計,親手算出你的第一個 g 值。
結語
從哈佛物理的單一 RCT,到 Liu(2025)橫跨 37 篇研究的跨研究統合,證據層次一層層疊高——AI 助教的正向效果已具相當可信度(g = 0.577),但別忘了它仍是一塊邊界仍在移動的證據。最穩健的做法,是一邊導入、一邊在自己的課堂量測,讓你的教學決策站在你自己的數據上。建議與本系列「哈佛物理 RCT」一文一起讀。