讀歷史,要讀「方法論的轉移」
AI 史常被講成「三次浪潮、兩次寒冬」的情緒週期,但對研究者更有用的讀法,是追蹤主導典範(dominant paradigm)的更替——每一次突破,本質上是「智慧從哪裡來」這個問題的答案改變了。
符號主義的黃金年代與第一次寒冬(1956–1970s)
1956 年達特茅斯會議命名了 AI,早期信心建立在符號推理:邏輯定理證明、搜尋(如 A*)、通用問題求解器。1958 年 Rosenblatt 的感知器(perceptron) 是連結主義的雛形,但 1969 年 Minsky 與 Papert 證明單層感知器無法表示 XOR 等非線性可分問題,重創了神經網路路線。算力與資料的匱乏、加上對組合爆炸與常識的低估,使承諾跳票,迎來第一次 AI 寒冬。
專家系統與第二次寒冬(1980s)
第二波由專家系統驅動:把領域專家的知識編碼成 if–then 規則(如 MYCIN、XCON)。它一度創造商業價值,但暴露了符號主義的根本瓶頸——知識取得與維護成本隨規則數爆炸、對雜訊脆弱、無法自我學習。同期 1986 年 Rumelhart、Hinton、Williams 重新推廣反向傳播,讓多層網路可訓練,悄悄埋下連結主義復興的種子,但受限於算力與資料尚未爆發。專家系統泡沫破裂,第二次寒冬來臨。
統計學習的滲透(1990s–2000s)
寒冬期間,主流悄悄轉向統計機器學習:SVM 與核方法、隨機森林、圖模型、HMM 等以堅實的統計理論取代手寫規則,在語音、生物資訊等領域穩定落地。這一期沒有耀眼的「AI」標籤,卻奠定了「從資料估計模型」的方法論基礎。
深度學習革命(2012–2017)
三條曲線——大數據(ImageNet)、GPU 算力、演算法改良(ReLU、Dropout、更好的初始化)——在 2012 年交會:AlexNet 在 ImageNet 上把錯誤率大幅拉低,點燃深度學習革命。隨後 seq2seq 與注意力機制攻克機器翻譯;2016 年 AlphaGo 結合深度網路與蒙地卡羅樹搜尋擊敗頂尖棋手,展示了「學習 + 搜尋」的威力。
2017 年的 Transformer(〈Attention Is All You Need〉)是分水嶺:它以自注意力取代循環結構,可大規模平行訓練,使「把模型做大」第一次在工程上可行。
規模時代與對齊(2018–至今)
Transformer + 自監督預訓練 + 規模律,催生了 GPT 系列:GPT-3(2020)以 1750 億參數展示少樣本學習的湧現能力。但「會接龍」不等於「會聽話」——2022 年 InstructGPT 以 RLHF(人類回饋強化學習) 把模型對齊到人類意圖,直接促成 ChatGPT。2024 年後,推理模型(先思考再回答) 與 Agent(工具使用) 成為新前沿。
這次和前兩次的差別
前兩次寒冬源於「能力遠不及承諾」。這一波不同:AI 已大規模落地、產生真實營收與數億使用者。但歷史的教訓依然適用——真實的技術進展與誇大的宣傳總是並存。研究者的素養,是能在兩者之間保持清醒:既不低估方法論轉移的深遠,也不被線性外推的樂觀沖昏頭。
深入探討(研究所視角)
人工智慧的三次浪潮,本質上是「以什麼為知識載體」的典範遞嬗:符號邏輯、淺層統計、再到深層分布式表徵。若以可計算性與可學習性的角度回望,兩次寒冬並非偶然的資金退潮,而是當時模型族(model class)的表達力與可學習性之間結構性矛盾的暴露。理解這層矛盾,才能看清第三次浪潮為何不同。
表達力與可學習性的張力
第一次寒冬的導火線之一,是 Minsky 與 Papert 對單層感知機的分析:線性閾值單元無法表徵 XOR 這類非線性可分函數。這在數學上對應於 VC 維度(Vapnik–Chervonenkis dimension)所刻畫的假設空間容量限制。多層網路雖在理論上具備普適逼近能力——Cybenko 的普適逼近定理指出,單一隱藏層配合 sigmoidal 激活即可在緊緻集上以任意精度逼近連續函數:
$$\sup_{x \in K} \left| f(x) - \sum_{i=1}^{N} \alpha_i \,\sigma(w_i^\top x + b_i) \right| < \varepsilon$$
但「存在性」不等於「可學習性」。深層網路的訓練長期受困於梯度消失:反向傳播中梯度為各層 Jacobian 的連乘,當 $\prod_{l} \|J_l\| \to 0$ 時底層幾乎不更新。第二次寒冬(專家系統的崩解)則暴露了符號系統的知識獲取瓶頸與脆性——手工規則無法隨環境分布漂移而泛化。
第三次浪潮的理論張力
深度學習的成功反而帶來新的理論謎題。經典統計學習理論預測:當參數量遠超樣本數,模型應嚴重過擬合。然而現代過參數化網路在內插訓練資料($\hat{R}_{\text{emp}} \approx 0$)後仍能良好泛化,此即 Belkin 等人刻畫的雙重下降(double descent)現象——測試風險在內插門檻之後再度下降,違反傳統 bias–variance 直覺。對此的部分解釋包括隱式正則化:SGD 在過參數化解空間中偏好低範數、平坦極小值的解。
Transformer 的崛起則由 Vaswani 等人的自注意力機制驅動:
$$\text{Attention}(Q, K, V) = \mathrm{softmax}\!\left(\frac{QK^\top}{\sqrt{d_k}}\right) V$$
其全域配對使序列建模擺脫了 RNN 的順序依賴瓶頸。隨之而來的縮放律(Kaplan 等人、Hoffmann 等人的 Chinchilla 修正)以冪次律刻畫損失與參數量、資料量、計算量的關係,並揭示湧現能力(emergent abilities)——某些任務表現在跨越特定規模門檻後出現非線性躍升,至今缺乏完整理論解釋。
開放問題與跨主題連結
當前的根本開放問題涵蓋:可解釋性(機制可解釋性試圖逆向工程網路內部電路)、對齊與 RLHF 的理論保證、以及推理是否為真泛化或高階模式匹配。這些議題與計算學習理論、最佳化幾何、資訊理論(如資訊瓶頸假說對表徵壓縮的刻畫)乃至認知科學緊密交織。回望七十年,AI 史的真正主線並非演算法更迭,而是人類對「智慧可被計算化的程度」這一命題,不斷修正自身的理論邊界。