從直覺到定義
直覺上,人工智慧(Artificial Intelligence, AI) 是「讓機器做原本需要人類智慧的事」。但這個說法會隨著技術進步而縮水——一旦某件事被機器做到(如光學字元辨識),人們就不再覺得它「需要智慧」。這個現象稱為 AI 效應(AI effect):「AI 是還沒被解決的那部分」。要避免這種滑動,學界改用更穩定的定義方式。
Russell 與 Norvig 在經典教科書中,沿兩個軸把 AI 的定義分成四類:追求「像人」還是「理性」、聚焦「思考」還是「行動」。現代主流取「理性地行動(acting rationally)」這一支,並以理性代理人(rational agent) 為核心抽象:
一個代理人透過感測器觀測環境、以致動器行動;在給定其知覺歷史下,理性代理人選擇能最大化期望效用(expected utility) 的行動。
形式上,代理人是一個函數 $f:\mathcal{P}^{*}\to\mathcal{A}$,把知覺序列 $\mathcal{P}^{*}$ 映到行動 $\mathcal{A}$。這個觀點的價值在於:它把「智慧」從模糊的哲學概念,轉成可量測的績效度量(performance measure) 與最佳化問題。
兩種典範:符號主義 vs. 連結主義
AI 的七十年史,是兩條知識論路線的拉鋸:
- 符號主義(Symbolic AI / GOFAI):智慧來自對符號的形式化操作。知識以邏輯命題、規則或知識圖譜顯式表示,推理即搜尋與定理證明。優點是可解釋、可組合、樣本效率高;弱點是知識取得瓶頸(knowledge acquisition bottleneck)——真實世界的常識與感知難以窮舉成規則,且對雜訊脆弱。
- 連結主義(Connectionism / 統計學習):智慧來自從資料中擬合的分散式表徵。不寫規則,而是調整大量參數去逼近輸入到輸出的映射。優點是對雜訊穩健、能處理高維感知訊號;弱點是需要大量資料、可解釋性低、推理與組合泛化仍是難題。
當代系統多為兩者的混合(neuro-symbolic),但 2010 年代以降的主導力量是連結主義的深度學習。
把學習形式化:函數逼近與風險最小化
統計學習把「學習」定義為函數逼近。設輸入空間 $\mathcal{X}$、輸出空間 $\mathcal{Y}$,資料由未知分布 $\mathcal{D}$ 生成。我們要從假設空間 $\mathcal{H}=\{f_\theta:\theta\in\Theta\}$ 中,找一個 $f_\theta$ 使期望風險(expected risk) 最小:
$$ R(\theta)=\mathbb{E}_{(x,y)\sim\mathcal{D}}\big[\ell\big(f_\theta(x),\,y\big)\big] $$
其中 $\ell$ 是損失函數。但 $\mathcal{D}$ 未知,實務上只能最小化在 $n$ 筆樣本上的經驗風險(empirical risk):
$$ \hat{R}(\theta)=\frac{1}{n}\sum_{i=1}^{n}\ell\big(f_\theta(x_i),\,y_i\big) $$
這個「以經驗風險近似期望風險」的策略,稱為經驗風險最小化(ERM)。整個機器學習的理論張力,就在於 $\hat{R}$ 與 $R$ 的差距——也就是泛化(generalization) 問題(詳見〈訓練、驗證與過擬合〉)。
為什麼「天下沒有白吃的午餐」
一個關鍵的理論事實:沒有任何學習演算法能在所有可能問題上都優於其他演算法(Wolpert 的 No Free Lunch 定理)。若對問題分布不做任何假設,所有演算法的平均表現相同。
這帶出一個深刻的推論:有效的學習必然依賴「歸納偏置(inductive bias)」——也就是演算法對「什麼樣的解比較可能」所做的先天假設。卷積網路假設平移不變與局部性、Transformer 假設以注意力建構的關係結構、決策樹假設軸對齊的階層切割。選模型,本質上就是選一組與問題結構相符的歸納偏置。理解這點,就不會問「哪個模型最好」,而會問「哪個歸納偏置最匹配這個問題」。
智慧、意識與中文房間
工程上的「智慧」不蘊含「意識」或「理解」。Searle 的中文房間(Chinese Room) 論證指出:一個按規則操作符號、能通過圖靈測試的系統,未必「理解」其所操作的符號——它展現了行為層次的能力,卻不必然有語意層次的理解。
當代大型語言模型把這個老問題重新點燃:它們在行為上展現了驚人的語言能力,但其能力是否構成「理解」,仍是認知科學與 AI 哲學的開放爭論。對研究者而言,務實的立場是:區分「能力(capability)」與「理解/意識」是兩個不同層次的問題,前者可量測、後者難以操作化。今天所有部署中的系統都是狹義 AI(Narrow AI);通用人工智慧(AGI) 仍是目標而非現況,且其定義本身尚無共識。
為什麼是這個年代
深度學習的崛起,是三條曲線交會的結果,可粗略以一條經驗性的規模律(scaling law) 概括:模型在大量任務上的測試損失 $L$,隨參數量 $N$、資料量 $D$、算力 $C$ 呈冪次下降,
$$ L(N)\approx L_\infty + \Big(\frac{N_0}{N}\Big)^{\alpha} $$
亦即「把模型做大、資料餵多、算力堆足」會可預測地降低損失。這個經驗規律(Kaplan 等人、Hoffmann 等人)解釋了為何 2010 年代後「規模」成為主導策略,也構成後續所有章節的背景。接著請看〈AI、機器學習、深度學習、生成式 AI 的關係〉,把這些名詞的層次一次釐清。