AI 聊天助教對學業成就：37 篇統合分析

一句話重點

把 AI 聊天機器人導入課程，平均能把學生的學業成就推高約半個標準差——但這個結論建立在一個仍在快速演變、底層研究品質參差的證據基礎上，導入時要同步測量、而非照單全收。

研究發現了什麼

把零散的單一實驗收攏成一張全景圖，是統合分析（meta-analysis）的價值。Liu（2025）發表於 Journal of Computer Assisted Learning 41(4)（DOI 10.1111/jcal.70096），蒐集了 37 篇研究（2022–2025），檢驗 ChatGPT 對學生學業成就的整體效果。

結果顯示效果為中等正向：合併後的 Hedges g = 0.577（95% CI [0.395, 0.759]，p < 0.001）。換句話說，使用 ChatGPT 的學生相較對照組，學業成就平均高出約 0.58 個標準差——以教育介入而言，這是值得認真看待的量級。

效果量：g = 0.577，落在「中等」區間（介於小效果 0.2 與大效果 0.8 之間）。
信賴區間：95% CI [0.395, 0.759]，整段都在零以上，代表效果方向穩定為正。
研究數：37 篇，時間橫跨 ChatGPT 問世後的前三年。

證據邊界務必註明

這是一個快速演變中的領域，底層 37 篇研究的設計品質不一，且資料僅截至 2025 年，結論可能隨新證據修正。此外請特別留意：另有一篇不同的 ChatGPT 統合分析（Nature, s41599-025-04787-y）已被撤稿；本文引用的是 Liu（2025）JCAL 這篇，並非該撤稿論文，請勿混淆。

教師可以怎麼做

把 AI 當「課程內助教」而非外掛

不要只丟一個通用 ChatGPT 連結，而是嵌入課程脈絡：給定課綱、教材與評量標準，讓 AI 回應扣合本課程的學習目標。

明確界定使用情境

規範學生在哪些任務用 AI（如概念釐清、程式除錯、寫作回饋），哪些任務不用（如總結性評量），避免成效被「代寫」稀釋。

設計可比對的兩組條件

同一門課的不同班級或不同單元，有 AI 助教 vs. 無 AI 助教，用同一份評量量尺，才能算出自己課堂的效果量。

引導學生「對話而非抄答」

要求學生記錄與 AI 的提問與追問過程，把 AI 用成思考夥伴，而非答案販賣機。

持續迭代提示與角色設定

領域演變快，定期檢視 system prompt與學生回饋，每學期微調 AI 助教的行為準則。

搭配 Uedu 工具

ClassroomGPT / AIDA / mygpts 自建頻道

用 ClassroomGPT 把 AI 助教正式導入課程：載入課綱與教材、設定教學風格，讓助教在課程脈絡內盡力回答學生提問；若要培養反思與認知策略，可改用 AIDA 優學伴的蘇格拉底式引導。教師也能透過 mygpts 自建頻道，針對特定單元客製專屬助教。成效指標就照 Liu（2025）的設計：比較有 AI 助教與無 AI 助教兩組課程的學業成就，算出你課堂自己的 g 值。

RAG 頻道知識庫 + Bloom 認知層次分析

把指定教材上傳 RAG 頻道知識庫，讓 AI 回答有出處、可引用，降低幻覺風險；再用 Bloom 認知層次分析檢視學生與 AI 的對話究竟停在「記憶／理解」還是推進到「分析／評鑑」，作為學業成就以外的歷程性指標。

一個可立即試做的小活動

本週選一個單元開兩條路：A 班用 ClassroomGPT 助教完成練習，B 班用傳統方式。下次上課用同一份線上測驗（可搭配 AI 自動出題）收尾，把兩組分數丟進統計，親手算出你的第一個 g 值。

結語

從哈佛物理的單一 RCT，到 Liu（2025）橫跨 37 篇研究的跨研究統合，證據層次一層層疊高——AI 助教的正向效果已具相當可信度（g = 0.577），但別忘了它仍是一塊邊界仍在移動的證據。最穩健的做法，是一邊導入、一邊在自己的課堂量測，讓你的教學決策站在你自己的數據上。建議與本系列「哈佛物理 RCT」一文一起讀。

給教師的提醒：本文為教學參考，所引研究多為特定情境（學科、國別、班級規模）下的質性或相關性研究，其「教學功能」與「策略」屬於可遷移的原則而非保證成效的處方。請依您的學科特性、學生組成與課程目標調整運用。

--

2

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings