從生成器到決策者
普通 chatbot 是「給提示、回一段文字」的單步生成器。AI 代理(agent) 把 LLM 變成在環境中循環決策的策略:它規劃、呼叫工具、觀察結果、再決定下一步,直到達成目標。形式上接近一個部分可觀測的序列決策問題——LLM 充當策略 $\pi$,在每一步根據歷史 $h_t$(含先前的思考與觀測)選擇行動 $a_t$:
$$ a_t\sim \pi_\theta(a_t\mid h_t),\qquad h_{t+1}=h_t\oplus(a_t, o_t) $$
行動空間 $\mathcal{A}$ 不只是「輸出文字」,還包含呼叫工具;$o_t$ 是工具回傳的觀測。
ReAct:推理與行動交錯的迴圈
主流的 agent 骨架是 ReAct:在「思考(Reason)→ 行動(Act)→ 觀測(Observe)」之間循環。推理讓模型規劃與消化中間結果,行動讓它取得外部資訊,二者交錯使其能處理單靠內部知識無法完成的任務。一個查股價的例子:
- Reason:這需要即時資料 → 該呼叫查價工具。
- Act:
get_stock_price("2330")。 - Observe:取得今日與上週數據。
- Reason → Act:計算漲跌幅、整理成帶數字的回答。
三大支柱:工具、規劃、記憶
- 工具使用(function calling):模型輸出結構化的工具呼叫(名稱+參數),由執行層運行後把結果回填上下文。這讓 LLM 把「精確計算、即時資訊、副作用操作」外包給可靠的外部系統,補足其本質弱點。
- 規劃:把長任務分解為子目標(plan-and-execute、樹狀搜尋如 ToT),降低一次到位的難度。
- 記憶:短期靠上下文視窗;長期靠外部儲存 + 檢索(RAG 式),跨回合保留狀態。反思(Reflexion) 讓 agent 從失敗的軌跡中總結教訓再重試。
為何可靠性是核心難題
Agent 是多步系統,誤差會複合:若每步成功率為 $p$,$n$ 步全對的機率約 $p^n$,隨步數指數衰減。這解釋了為何長程自主任務仍脆弱,也是當前研究的主戰場(更好的規劃、驗證、自我修正、人類在迴圈)。
安全:能力放大,風險也放大
「會做事」意味著真實副作用與新攻擊面:
- 提示注入(prompt injection):惡意內容混入工具回傳或網頁,劫持 agent 的後續行動。
- 過度自主:在不該行動時行動、或誤用高權限工具。
實務防線:最小權限工具、高風險操作需人類確認、沙箱化執行、輸入輸出審查。能力越大,治理越重要——呼應〈AI 治理與法規〉與〈幻覺、對齊與 AI 安全〉。
Uedu 實例
本平台的 ClassroomGPT/AIDA/mygpts 都載入 chat_tools.py 的數十個 function tool(查課綱、繪圖、執行 Python、查股價、找指導老師……)。學生提問時,模型自主選用合適工具——這正是把 chatbot 升級為 tool-augmented agent 的實作。
深入探討(研究所視角)
從 POMDP 看 Agent 的形式化與工具使用的決策理論
將會做事的 Agent 嚴格形式化,可視為一個帶外部動作空間的部分可觀測馬可夫決策過程(POMDP)$\mathcal{M}=\langle \mathcal{S},\mathcal{A},\mathcal{O},T,Z,r,\gamma\rangle$。其中 $\mathcal{A}=\mathcal{A}_{\text{text}}\cup\mathcal{A}_{\text{tool}}$ 將「輸出文字」與「呼叫工具」統一為動作;工具呼叫透過轉移核 $T(s'\mid s,a)$ 改變外部世界狀態(檔案、API、資料庫),其結果再經觀測函數 $Z(o\mid s',a)$ 回饋給語言模型。由於底層狀態 $s$ 不可直接觀測,Agent 實際操作的是信念狀態 $b(s)=\Pr(s\mid h)$,其中歷史 $h=(o_0,a_0,\dots,o_t)$ 即上下文視窗。LLM 在此扮演策略 $\pi_\theta(a\mid h)$ 的角色——這也說明為何「上下文工程」本質上是在塑形信念狀態的充分統計量。一個關鍵理論觀察是:當工具回傳具決定性的事實(如計算器、檢索器),Agent 等效於把高熵的內部分布替換為低熵的外部觀測,從資訊論角度即降低後驗不確定性 $H(s\mid h)$,這正是工具使用相對於純參數記憶的優勢來源。
ReAct、規劃與最新研究方向
入門所介紹的 ReAct(推理與行動交錯)可重新理解為在每一步以思考 token 擴充歷史 $h$,藉此近似一次 belief update 後再決策。然而貪婪的逐步展開易陷入局部最優,因此 SOTA 工作轉向顯式搜尋:Tree of Thoughts 將推理視為在思考樹上的搜尋,並可套用價值函數 $V(h)$ 做 best-first 或 BFS/DFS 剪枝;更進一步者直接引入蒙地卡羅樹搜尋(MCTS),以 UCT 準則平衡探索與利用, $$a^\star=\arg\max_{a}\Big(Q(h,a)+c\sqrt{\tfrac{\ln N(h)}{N(h,a)}}\Big),$$ 其中 $Q$ 由 LLM 自評或外部驗證器估計。另一條主線是訓練層面的對齊:以可驗證獎勵的強化學習(RLVR)讓 Agent 在工具回饋構成的環境中最佳化軌跡回報 $J(\theta)=\mathbb{E}_{\tau\sim\pi_\theta}\big[\sum_t\gamma^t r_t\big]$,配合 PPO 或 GRPO 一類算法。多代理協作(如辯論、角色分工)與記憶體機制(將長期經驗外化為可檢索向量庫)則分別對應「以群體投票降低變異」與「以外部記憶突破上下文長度上限」兩種擴展。
開放問題與理論連結
當前未解的核心難題包括:(一)信用分配,長視野任務中稀疏且延遲的獎勵使得哪一步工具呼叫導致成敗難以歸因;(二)可組合性與安全性的張力,賦予 Agent 任意工具等同擴大攻擊面,提示注入(prompt injection)在形式上是讓對手污染觀測 $o$ 以劫持策略 $\pi_\theta$,目前缺乏可證明的隔離保證;(三)評測的不可重現性,真實環境的非定常轉移核 $T$ 使 benchmark 難以對照。理論上,Agent 與 RAG 共享「以外部資訊降低後驗熵」的框架,與規劃領域共享 POMDP 的搜尋結構,亦與 in-context learning 的「將學習壓縮進前向傳遞」觀點相通——這些連結提示,理解 Agent 的下一步,可能不在於更大的模型,而在於更好的環境互動與搜尋演算法。