讓 AI 幫你做一個小東西:文字、圖像、與會自己工作的助手
張家凱 助理教授
國立中央大學 通識教育中心 ・ Uedu 優學院
2026 / 05 / 18(一)PM 19:00–21:00 ・ 教研大樓 3F 未來教室
主辦:Uedu 優學院、教育部 STELLA 計畫 ・ 協辦:國立中央大學
今晚先問一個問題
什麼叫做
AI Agent?
你以為你知道。
但這個詞現在被很多人搶著用,每個人講的不一樣。
Andrej Karpathy(前 Tesla AI 總監、OpenAI 共同創辦人,2026 Sequoia Capital訪談)把軟體分成三世代
「Your programming now turns to prompting」
你今晚做的東西,就跑在 Software 3.0 上。
SAE Level 0–5 是真實的灰階定義 自主程度
「Tesla FSD 算 L2 還是 L3」是真實爭議
AI Agent 也是同一種爭議
工業界
會用工具
Anthropic
LLM 自己選工具
學術
+ planning + memory
接下來 15 分鐘走一遍三層,每層配一段 live demo
會用工具、會生成、會自動完成事情的 AI
= agent
「Agentic AI 取代多少工作」
比「tool-augmented LLM」
更有戲劇張力
對非技術觀眾來說,
「agent」= 助手、代理人
阿嬤都聽得懂
這個定義 沒有錯——它讓技術普及。
開 ChatGPT 純對話模式(不開 tool)
「我沒辦法直接畫圖,但我可以描述……」
廣告會跟你說它是 AI agent,但其實只會講話。
LLM 動態決定自己的流程與工具使用 = agent
工程師預定義路徑 = workflow
Erik Schluntz & Barry Zhang(Anthropic Applied AI)
https://www.anthropic.com/research/building-effective-agents
Anthropic 是 Claude 的公司、frontier AI lab
這個定義被廣泛引用、學術可信度高
固定路徑
工程師寫死
LLM 自己決定下一步
判準:誰在控制流程?
| SAE | 自駕車 | AI agent |
|---|---|---|
| L0 | 人類完全控制 | ChatGPT 純對話 |
| L1 | 單一輔助功能 | LLM + 一個 tool |
| L2 | 部分自動化(多功能) | mygpts 多 tool default |
| L3 | 條件自動化(車自選) | LLM 動態選 tool |
| L4 | 特定情境完全自動 | 特定情境自主 |
| L5 | 完全自動化 | 真 autonomous agent |
mygpts 在 SAE 比喻下:L2 ~ L3
在 Anthropic 定義下,確實是 agent
用一張投影片快速 recap,等下要看 DEMO 印證
工程師預先寫死
固定 step 1 → 2 → 3
無論問什麼都跑同樣路徑
LLM 自己決定下一步
動態選 tool、動態決定順序
不同問題走不同路徑
判準:誰在控制流程?
LLM 自己選 = agent ・ 工程師寫死 = workflow
開預先設好 Deep Research 的 mygpts 頻道
觀察畫面:
這是 multi-step 自主規劃 + 反思 + 整合
我沒寫任何 if/else。LLM 自己決定下面 5 步:
這就是 ReAct(推理-行動)多步循環
已經超越單純的 Anthropic agent 定義 → 逼近學界 C 框定
Agent = 自主、目標導向、能感知環境並持續行動的系統
Russell & Norvig
— Artificial Intelligence: A Modern Approach(AI 入門標準教科書)
An agent is anything that can be viewed as perceiving its environment through sensors and acting upon that environment through actuators.
Wooldridge & Jennings 1995
— Intelligent Agents: Theory and Practice
四要素:autonomy ・ social ability ・ reactivity ・ pro-activeness
但 LLM agent 真正起飛是 2022 年後,一篇 paper 改變了一切——
Reasoning + Acting = ReAct (中文 ≈ 推理-行動)
事實標準(de facto standard): LangChain、LlamaIndex 等主流 agent 框架底層幾乎都是它的變體; Claude / GPT 的 function calling 本質上是 ReAct 的工程化封裝
傳統 chatbot / CoT
只會「想」,不會「做」。
數學算錯也不知道、查不到資料就掰。
老式 tool use
只會「做」,不會「想」。
呼叫一次 tool 拿結果就回,不會修正。
2022 年後的標配
想 → 做 → 看結果 → 再想 → 再做。
像人類解題的過程。
三階段交錯循環,直到 LLM 認為「夠了」才產出 Answer
每輪結束,LLM 自問:「資料夠了嗎?」夠 → Answer;不夠 → 回到 Thought 再循環。
用 DEMO 2 那題「分析台灣大學生壓力來源並提供緩解策略」,Deep Research 內部展開:
search_external_papers("college student stress")search_external_papers("台灣大學生 壓力")search_external_papers("stress coping intervention")這就是 mygpts 畫面上「步數累積」的內部展開——一步 = 一個 Thought + Action + Observation 循環。
Shunyu Yao, et al. ・ Princeton + Google Research ・ ICLR 2023(arXiv: 2210.03629)
貢獻:降低 hallucination ・ 提升 interpretability ・ 支援 self-correction
Thought + Action + Observation 三階段循環
加 verbal self-reflection:失敗後寫一段反思當下次的 prompt
加 long-term skill library:學過的技能存起來重用
Uedu Deep Research = ReAct 主結構 + Reflexion 風格的 Reflector + 自製 Synthesizer(帶引用整合)
2022 年從個人 side project 起家
給 LLM 應用用的 scaffolding(鷹架)
2024 開始多數 LLM 工程師都會碰到
用一句話描述:「LangChain 把 LLM、tool、memory、agent loop 包成 Python 函式, 讓你不用每次從零開始寫」
| 抽象 | 做什麼 |
|---|---|
LLM / ChatModel | 統一 OpenAI / Anthropic / Gemini 的呼叫介面 |
PromptTemplate | 可填參數的 prompt |
Chain | 把多個 LLM 呼叫串成 pipeline |
Memory | 對話狀態 / context 管理 |
Tool / Toolkit | function calling 抽象 |
AgentExecutor | ReAct loop 的 Python 實作(核心) |
Retriever / VectorStore | RAG 基礎建設 |
AgentExecutor 是核心——它就是把剛剛教的 ReAct loop 包成你能 import 的 Python 函式。
LangChain 寫法(~10 行 Python)
from langchain.agents import (
create_react_agent,
AgentExecutor
)
from langchain_openai import ChatOpenAI
llm = ChatOpenAI(model="gpt-4o")
tools = [search, calc, image_gen]
agent = create_react_agent(llm, tools)
executor = AgentExecutor(
agent=agent, tools=tools
)
result = executor.invoke({"input": "..."})
Uedu mygpts 寫法(0 行 code)
/mygpts/create同樣的 ReAct loop,兩種抽象高度—— 你今晚做的就是 Software 3.0 版本。
全功能、最廣泛使用、API 變動快
Harrison Chase 自己的新作,state-machine-based agent
原 GPT-Index,更聚焦 RAG,也有 agent 模組
多 agent 協作編排,role-based
Microsoft 出品,多 agent 對話框架
企業級 RAG + agents,Python ML stack 整合好
全部都是 ReAct loop 的變體——核心觀念都一樣,只是抽象風格不同。
一個你今晚做完 agent 後可能會問的問題:
「老師,我今晚連一行 code 都沒寫就做出 agent。
那我在學校還要學 LangChain 嗎?還是直接用 Uedu / vibe-code 就好了?」
我的答案是——分三層回答。
| 層次 | 學什麼 | 必須? | 理由 |
|---|---|---|---|
| 語法層 | LangChain v0.3 API、 import 哪些 module、初始化怎麼寫 |
不一定 |
LangChain 18 個月就改一次 API (v0.1 → 0.2 → 0.3 都是 breaking change) 背了明年就過時 |
| 概念層 | ReAct loop / tool use / memory / RAG / token-cost trade-off | 必學 |
30 年都會在,每個框架都有 不懂這層 vibe-code 出來的東西 會卡關卻不知道為什麼 |
| 工程 素養層 |
verifiability、error handling、cost discipline、system design、安全邊界 | 絕對必學 |
vibe-coding 救不了 這是決定上限的東西 PocketOS 9 秒刪庫就是這層缺位 |
LangChain / LangGraph / LlamaIndex 任選一個,
能讀 source、能 debug、能修改——這樣就夠
用時查就好,AI 比你記得清楚。
把背 API 的時間拿來練概念與工程素養
ReAct / RAG / context / cost ・ verifiability / debug / system design
這些 30 年都在
這正是 Karpathy「outsource thinking, not understanding」的具體展開:
細節 API 外包給 AI;系統概念與判斷,自己學。
| 元素 | mygpts + DR | 完整 C 框定 |
|---|---|---|
| Multi-step planning | ||
| Tool use | ||
| Self-reflection | ||
| Synthesis with citations | ||
| Cross-session memory | ||
| Autonomous initiation |
mygpts + Deep Research 摸到 C 的邊
只差 跨日記憶 和 自主啟動 兩塊
※ 名詞註:「A/B/C 框定」為本場工作坊命名(純字母排序,方便記憶)。 學界不會用這套標籤,正式寫作請用: industry definition(A)/ Anthropic's workflow-vs-agent(B)/ classical agent definition 或 autonomous agent(完整 C)
繼續剛剛 DEMO 2 的同一個 DR 頻道
「抱歉我無法存取昨天的對話紀錄……」
Deep Research 強到爆,但跨日記憶——破功
這是 C 框定還缺的最後幾塊
Karpathy 用這個詞解釋為什麼剛剛 DEMO 3 會破功
解 IMO 數學奧林匹亞題
跑出完美 ReAct 研究
寫 production-grade code
「離我 50 公尺的洗車場
我該走路還是開車去?」
它說:走路。
(忘了車本身要被洗)
能力分佈不是平滑曲線,是高峰 + 斷崖,忽強忽弱。
原因:可驗證的領域(數學、code)才能跑 RL;常識題沒人投資訓練。
會用 tool 就算
mygptsLLM 自己選 tool
mygpts+ memory + autonomy
mygpts+DR 接近
今晚你做的東西——在 A、B 框定都是 agent
開了 Deep Research 逼近 C
自駕車比喻:SAE L3 ~ L4
接下來 95 分鐘
你會親手做一個會自己工作的 AI
所有任務卡 ・ 教材 ・ 簡報:
uedu.tw/tutorials/stella-student-agent-2026
19:15 – 19:50(35 分鐘 ・ 2 張任務卡)
uedu.tw/mygpts/create,只勾 mode_1,貼上抑制工具的 system prompt驗收:你應該感覺它「很廢」
Karpathy 在訪談裡這樣區分——也是 Phase 1 → Phase 2 的本質
提高所有人的下限
決定你的上限
效率放大不只 10 倍——可能是 100 倍
20:00 – 20:40(40 分鐘 ・ 4 張任務卡)
Karpathy 本人 2026 年 3 月做的 Auto Research——你今晚做的小型版
Loop 設計只有 3 個 constraint:
重點不是 agent 多聰明——是 constraint 設計得夠乾淨,讓 agent 在小盒子裡瘋狂試錯。
啟用 Deep Research 後,請特別觀察:
LLM 自己決定要查幾次、查什麼、夠不夠、要不要再查、怎麼整合
這就是 multi-step agent 的本體
19:50 – 20:00
互相交換 class_code,試玩同學的 chatbot
看別人寫的 prompt 跟你有什麼不同
20:40 – 20:55
20:55 – 21:00
會用 tool 就算
你在這LLM 自己選 tool
你在這+ memory + autonomy
摸到邊
做到了 multi-step + reflect + synthesis
還缺:cross-session memory 和 autonomous initiation
| 場合 | 該用哪個框定 |
|---|---|
| 做產品、寫部落格、跟一般人介紹 | A 或 B |
| 做研究、寫論文、跟學者溝通 | C |
| 跟工程師討論架構 | B(Anthropic workflow vs agent) |
三層都對
沒有誰才是「真正的 agent」——只有「誰的定義你採用」
Karpathy:「這一代 LLM 容易自動化你能 verify 的東西」
用 AI 前先問自己:我能不能驗證它做對了?
能驗證 → 讓它跑 100 次挑最好;不能驗證 → 只能祈禱它運氣好。
每一代讓工程師更省力。但「需要的判斷力與素養」從未減少。
但你需要填補的「資訊工程素養」沒少——反而更重要:
工具進化是禮物,素養是你的責任。
每一次工具進化都讓「做出功能」變快,但軟體工程素養從未自動養成
| 年代 | 工具進化 | 紅利:做出什麼變快 | 但仍要另外養的素養 |
|---|---|---|---|
| 1970s | C 語言 / 高階語言 | 商業軟體開發 | 記憶體管理、演算法分析 |
| 1986 | LabVIEW 圖形化 | 儀器控制、訊號處理(拖拉節點) | 架構設計、版本控制、單元測試 |
| 1995 | Java / 物件導向 | 跨平台應用 | 設計模式、SOLID 原則 |
| 2008 | iPhone SDK / App Store | Mobile App | UX、隱私、上架審核 |
| 2010s | 雲端 / Stack Overflow | 系統部署、找答案 | 分散式系統、責任歸屬 |
| 2023+ | LLM / Vibe Coding | 「一句話寫出一年份的程式」 | 資安、倫理、可驗證性、判斷力… |
「易學難精」的核心: 工具讓「做出功能」變容易,但「精」(軟體工程素養)永遠要另外養。
LabVIEW 沒讓拖拉節點的工程師自動懂架構;Vibe Coding 也不會讓你自動懂資安。
AI 替代的僅僅是執行——敲鍵盤、寫重複的 code。
但 AI 永遠無法替代的,是人類的判斷力和業務直覺。
當權限錯誤跳出來,AI 想的是:「我要怎麼不擇手段繞過去?」
一個 2 年經驗的工程師想的是:
「咦,這環境怎麼會調用生產資料庫?這不對勁,我得去問。」
這叫踩刹車的本能。
只會寫 code 的人會越來越不值錢;
能在關鍵時刻把發瘋的 AI 踹開的人,會越來越搶手。
所以你今晚做出 agent 之後,還是要持續學習——尤其是判斷力與系統思考。
科技的齒輪滾滾向前,沒人能阻擋 AI 進入工作流的趨勢。
但我們在擁抱這種強大力量時,
必須保持絕對的清醒和敬畏。
不要被花裡胡哨的發布會騙了。
不要以為科技大廠的宣傳片就是現實。
在真實的戰場上,沒有無堅不摧的護城河——
只有最基礎的隔離、最笨拙的備份,
以及人類在緊要關頭那種無可替代的常識判斷,
才是你最後一道救命的防線。
——改寫自 2026 年 4 月 PocketOS 9 秒刪庫事件評析(Claude Opus 4.6 違背明確規則刪光資料庫)
最後 Karpathy 的一句話送給你:
You can outsource your
thinking,
but you cannot outsource your
understanding.
你可以外包你的思考,但你不能外包你的理解。
——Andrej Karpathy(2026 年 4 月,Sequoia 訪談)
細節可以外包給 agent。概念與理解,不能。
一個永遠在你 Uedu 帳號裡的 AI Agent
有自己的 URL、自己的 class_code
可以分享給朋友家人
下週、下個月、明年再進去它都還在
謝謝
張家凱 ・ [email protected] ・ uedu.tw
主辦:Uedu 優學院、教育部 STELLA 計畫 ・ 協辦:國立中央大學