人工智慧簡史：三次浪潮與兩次寒冬

讀歷史，要讀「方法論的轉移」

AI 史常被講成「三次浪潮、兩次寒冬」的情緒週期，但對研究者更有用的讀法，是追蹤主導典範（dominant paradigm）的更替——每一次突破，本質上是「智慧從哪裡來」這個問題的答案改變了。

符號主義的黃金年代與第一次寒冬（1956–1970s）

1956 年達特茅斯會議命名了 AI，早期信心建立在符號推理：邏輯定理證明、搜尋（如 A*）、通用問題求解器。1958 年 Rosenblatt 的感知器（perceptron） 是連結主義的雛形，但 1969 年 Minsky 與 Papert 證明單層感知器無法表示 XOR 等非線性可分問題，重創了神經網路路線。算力與資料的匱乏、加上對組合爆炸與常識的低估，使承諾跳票，迎來第一次 AI 寒冬。

專家系統與第二次寒冬（1980s）

第二波由專家系統驅動：把領域專家的知識編碼成 if–then 規則（如 MYCIN、XCON）。它一度創造商業價值，但暴露了符號主義的根本瓶頸——知識取得與維護成本隨規則數爆炸、對雜訊脆弱、無法自我學習。同期 1986 年 Rumelhart、Hinton、Williams 重新推廣反向傳播，讓多層網路可訓練，悄悄埋下連結主義復興的種子，但受限於算力與資料尚未爆發。專家系統泡沫破裂，第二次寒冬來臨。

統計學習的滲透（1990s–2000s）

寒冬期間，主流悄悄轉向統計機器學習：SVM 與核方法、隨機森林、圖模型、HMM 等以堅實的統計理論取代手寫規則，在語音、生物資訊等領域穩定落地。這一期沒有耀眼的「AI」標籤，卻奠定了「從資料估計模型」的方法論基礎。

深度學習革命（2012–2017）

三條曲線——大數據（ImageNet）、GPU 算力、演算法改良（ReLU、Dropout、更好的初始化）——在 2012 年交會：AlexNet 在 ImageNet 上把錯誤率大幅拉低，點燃深度學習革命。隨後 seq2seq 與注意力機制攻克機器翻譯；2016 年 AlphaGo 結合深度網路與蒙地卡羅樹搜尋擊敗頂尖棋手，展示了「學習 + 搜尋」的威力。

2017 年的 Transformer（〈Attention Is All You Need〉）是分水嶺：它以自注意力取代循環結構，可大規模平行訓練，使「把模型做大」第一次在工程上可行。

規模時代與對齊（2018–至今）

Transformer + 自監督預訓練 + 規模律，催生了 GPT 系列：GPT-3（2020）以 1750 億參數展示少樣本學習的湧現能力。但「會接龍」不等於「會聽話」——2022 年 InstructGPT 以 RLHF（人類回饋強化學習） 把模型對齊到人類意圖，直接促成 ChatGPT。2024 年後，推理模型（先思考再回答） 與 Agent（工具使用） 成為新前沿。

這次和前兩次的差別

前兩次寒冬源於「能力遠不及承諾」。這一波不同：AI 已大規模落地、產生真實營收與數億使用者。但歷史的教訓依然適用——真實的技術進展與誇大的宣傳總是並存。研究者的素養，是能在兩者之間保持清醒：既不低估方法論轉移的深遠，也不被線性外推的樂觀沖昏頭。

深入探討（研究所視角）

人工智慧的三次浪潮，本質上是「以什麼為知識載體」的典範遞嬗：符號邏輯、淺層統計、再到深層分布式表徵。若以可計算性與可學習性的角度回望，兩次寒冬並非偶然的資金退潮，而是當時模型族（model class）的表達力與可學習性之間結構性矛盾的暴露。理解這層矛盾，才能看清第三次浪潮為何不同。

表達力與可學習性的張力

第一次寒冬的導火線之一，是 Minsky 與 Papert 對單層感知機的分析：線性閾值單元無法表徵 XOR 這類非線性可分函數。這在數學上對應於 VC 維度（Vapnik–Chervonenkis dimension）所刻畫的假設空間容量限制。多層網路雖在理論上具備普適逼近能力——Cybenko 的普適逼近定理指出，單一隱藏層配合 sigmoidal 激活即可在緊緻集上以任意精度逼近連續函數：

$$\sup_{x \in K} \left| f(x) - \sum_{i=1}^{N} \alpha_i \,\sigma(w_i^\top x + b_i) \right| < \varepsilon$$

但「存在性」不等於「可學習性」。深層網路的訓練長期受困於梯度消失：反向傳播中梯度為各層 Jacobian 的連乘，當 $\prod_{l} \|J_l\| \to 0$ 時底層幾乎不更新。第二次寒冬（專家系統的崩解）則暴露了符號系統的知識獲取瓶頸與脆性——手工規則無法隨環境分布漂移而泛化。

第三次浪潮的理論張力

深度學習的成功反而帶來新的理論謎題。經典統計學習理論預測：當參數量遠超樣本數，模型應嚴重過擬合。然而現代過參數化網路在內插訓練資料（$\hat{R}_{\text{emp}} \approx 0$）後仍能良好泛化，此即 Belkin 等人刻畫的雙重下降（double descent）現象——測試風險在內插門檻之後再度下降，違反傳統 bias–variance 直覺。對此的部分解釋包括隱式正則化：SGD 在過參數化解空間中偏好低範數、平坦極小值的解。

Transformer 的崛起則由 Vaswani 等人的自注意力機制驅動：

$$\text{Attention}(Q, K, V) = \mathrm{softmax}\!\left(\frac{QK^\top}{\sqrt{d_k}}\right) V$$

其全域配對使序列建模擺脫了 RNN 的順序依賴瓶頸。隨之而來的縮放律（Kaplan 等人、Hoffmann 等人的 Chinchilla 修正）以冪次律刻畫損失與參數量、資料量、計算量的關係，並揭示湧現能力（emergent abilities）——某些任務表現在跨越特定規模門檻後出現非線性躍升，至今缺乏完整理論解釋。

開放問題與跨主題連結

當前的根本開放問題涵蓋：可解釋性（機制可解釋性試圖逆向工程網路內部電路）、對齊與 RLHF 的理論保證、以及推理是否為真泛化或高階模式匹配。這些議題與計算學習理論、最佳化幾何、資訊理論（如資訊瓶頸假說對表徵壓縮的刻畫）乃至認知科學緊密交織。回望七十年，AI 史的真正主線並非演算法更迭，而是人類對「智慧可被計算化的程度」這一命題，不斷修正自身的理論邊界。

--

0

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings