什麼是人工智慧？從規則到學習

從直覺到定義

直覺上，人工智慧（Artificial Intelligence, AI） 是「讓機器做原本需要人類智慧的事」。但這個說法會隨著技術進步而縮水——一旦某件事被機器做到（如光學字元辨識），人們就不再覺得它「需要智慧」。這個現象稱為 AI 效應（AI effect）：「AI 是還沒被解決的那部分」。要避免這種滑動，學界改用更穩定的定義方式。

Russell 與 Norvig 在經典教科書中，沿兩個軸把 AI 的定義分成四類：追求「像人」還是「理性」、聚焦「思考」還是「行動」。現代主流取「理性地行動（acting rationally）」這一支，並以理性代理人（rational agent） 為核心抽象：

一個代理人透過感測器觀測環境、以致動器行動；在給定其知覺歷史下，理性代理人選擇能最大化期望效用（expected utility） 的行動。

形式上，代理人是一個函數 $f:\mathcal{P}^{*}\to\mathcal{A}$，把知覺序列 $\mathcal{P}^{*}$ 映到行動 $\mathcal{A}$。這個觀點的價值在於：它把「智慧」從模糊的哲學概念，轉成可量測的績效度量（performance measure） 與最佳化問題。

兩種典範：符號主義 vs. 連結主義

AI 的七十年史，是兩條知識論路線的拉鋸：

符號主義（Symbolic AI / GOFAI）：智慧來自對符號的形式化操作。知識以邏輯命題、規則或知識圖譜顯式表示，推理即搜尋與定理證明。優點是可解釋、可組合、樣本效率高；弱點是知識取得瓶頸（knowledge acquisition bottleneck）——真實世界的常識與感知難以窮舉成規則，且對雜訊脆弱。
連結主義（Connectionism / 統計學習）：智慧來自從資料中擬合的分散式表徵。不寫規則，而是調整大量參數去逼近輸入到輸出的映射。優點是對雜訊穩健、能處理高維感知訊號；弱點是需要大量資料、可解釋性低、推理與組合泛化仍是難題。

當代系統多為兩者的混合（neuro-symbolic），但 2010 年代以降的主導力量是連結主義的深度學習。

把學習形式化：函數逼近與風險最小化

統計學習把「學習」定義為函數逼近。設輸入空間 $\mathcal{X}$、輸出空間 $\mathcal{Y}$，資料由未知分布 $\mathcal{D}$ 生成。我們要從假設空間 $\mathcal{H}=\{f_\theta:\theta\in\Theta\}$ 中，找一個 $f_\theta$ 使期望風險（expected risk） 最小：

$$ R(\theta)=\mathbb{E}_{(x,y)\sim\mathcal{D}}\big[\ell\big(f_\theta(x),\,y\big)\big] $$

其中 $\ell$ 是損失函數。但 $\mathcal{D}$ 未知，實務上只能最小化在 $n$ 筆樣本上的經驗風險（empirical risk）：

$$ \hat{R}(\theta)=\frac{1}{n}\sum_{i=1}^{n}\ell\big(f_\theta(x_i),\,y_i\big) $$

這個「以經驗風險近似期望風險」的策略，稱為經驗風險最小化（ERM）。整個機器學習的理論張力，就在於 $\hat{R}$ 與 $R$ 的差距——也就是泛化（generalization） 問題（詳見〈訓練、驗證與過擬合〉）。

為什麼「天下沒有白吃的午餐」

一個關鍵的理論事實：沒有任何學習演算法能在所有可能問題上都優於其他演算法（Wolpert 的 No Free Lunch 定理）。若對問題分布不做任何假設，所有演算法的平均表現相同。

這帶出一個深刻的推論：有效的學習必然依賴「歸納偏置（inductive bias）」——也就是演算法對「什麼樣的解比較可能」所做的先天假設。卷積網路假設平移不變與局部性、Transformer 假設以注意力建構的關係結構、決策樹假設軸對齊的階層切割。選模型，本質上就是選一組與問題結構相符的歸納偏置。理解這點，就不會問「哪個模型最好」，而會問「哪個歸納偏置最匹配這個問題」。

智慧、意識與中文房間

工程上的「智慧」不蘊含「意識」或「理解」。Searle 的中文房間（Chinese Room） 論證指出：一個按規則操作符號、能通過圖靈測試的系統，未必「理解」其所操作的符號——它展現了行為層次的能力，卻不必然有語意層次的理解。

當代大型語言模型把這個老問題重新點燃：它們在行為上展現了驚人的語言能力，但其能力是否構成「理解」，仍是認知科學與 AI 哲學的開放爭論。對研究者而言，務實的立場是：區分「能力（capability）」與「理解／意識」是兩個不同層次的問題，前者可量測、後者難以操作化。今天所有部署中的系統都是狹義 AI（Narrow AI）；通用人工智慧（AGI） 仍是目標而非現況，且其定義本身尚無共識。

為什麼是這個年代

深度學習的崛起，是三條曲線交會的結果，可粗略以一條經驗性的規模律（scaling law） 概括：模型在大量任務上的測試損失 $L$，隨參數量 $N$、資料量 $D$、算力 $C$ 呈冪次下降，

$$ L(N)\approx L_\infty + \Big(\frac{N_0}{N}\Big)^{\alpha} $$

亦即「把模型做大、資料餵多、算力堆足」會可預測地降低損失。這個經驗規律（Kaplan 等人、Hoffmann 等人）解釋了為何 2010 年代後「規模」成為主導策略，也構成後續所有章節的背景。接著請看〈AI、機器學習、深度學習、生成式 AI 的關係〉，把這些名詞的層次一次釐清。

--

0

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings