Home
探索 Uedu
學生控制台
註冊會員/登入
研究知情同意中心
教師控制台
課程設定
支援與訊息
Uptime 數據

UeduGPTs

--

Jupyters

2

UG26 CISOSE26
臺北 AQI 51 · 臺中 AQI 32 · 臺南 AQI 29 · 高雄 AQI 27

AI 回覆桌面通知

AI 助教回覆完成時顯示桌面通知

聊天訊息通知

同學在討論區發送訊息時通知

聲音通知

每當有新通知時播放提示音

人工智慧概論
人工智慧概論

人工智慧簡史:三次浪潮與兩次寒冬

從達特茅斯會議到 ChatGPT,AI 走過七十年起伏。

人工智慧簡史:三次浪潮與兩次寒冬 概念插圖
概念示意插圖(AI 生成,僅作輔助理解)
研究  ·  約 12 分鐘  ·  歷史典範轉移研究

讀歷史,要讀「方法論的轉移」

AI 史常被講成「三次浪潮、兩次寒冬」的情緒週期,但對研究者更有用的讀法,是追蹤主導典範(dominant paradigm)的更替——每一次突破,本質上是「智慧從哪裡來」這個問題的答案改變了。

符號主義的黃金年代與第一次寒冬(1956–1970s)

1956 年達特茅斯會議命名了 AI,早期信心建立在符號推理:邏輯定理證明、搜尋(如 A*)、通用問題求解器。1958 年 Rosenblatt 的感知器(perceptron) 是連結主義的雛形,但 1969 年 Minsky 與 Papert 證明單層感知器無法表示 XOR 等非線性可分問題,重創了神經網路路線。算力與資料的匱乏、加上對組合爆炸與常識的低估,使承諾跳票,迎來第一次 AI 寒冬

專家系統與第二次寒冬(1980s)

第二波由專家系統驅動:把領域專家的知識編碼成 if–then 規則(如 MYCIN、XCON)。它一度創造商業價值,但暴露了符號主義的根本瓶頸——知識取得與維護成本隨規則數爆炸、對雜訊脆弱、無法自我學習。同期 1986 年 Rumelhart、Hinton、Williams 重新推廣反向傳播,讓多層網路可訓練,悄悄埋下連結主義復興的種子,但受限於算力與資料尚未爆發。專家系統泡沫破裂,第二次寒冬來臨。

統計學習的滲透(1990s–2000s)

寒冬期間,主流悄悄轉向統計機器學習:SVM 與核方法、隨機森林、圖模型、HMM 等以堅實的統計理論取代手寫規則,在語音、生物資訊等領域穩定落地。這一期沒有耀眼的「AI」標籤,卻奠定了「從資料估計模型」的方法論基礎。

深度學習革命(2012–2017)

三條曲線——大數據(ImageNet)GPU 算力演算法改良(ReLU、Dropout、更好的初始化)——在 2012 年交會:AlexNet 在 ImageNet 上把錯誤率大幅拉低,點燃深度學習革命。隨後 seq2seq 與注意力機制攻克機器翻譯;2016 年 AlphaGo 結合深度網路與蒙地卡羅樹搜尋擊敗頂尖棋手,展示了「學習 + 搜尋」的威力。

2017 年的 Transformer(〈Attention Is All You Need〉)是分水嶺:它以自注意力取代循環結構,可大規模平行訓練,使「把模型做大」第一次在工程上可行。

規模時代與對齊(2018–至今)

Transformer + 自監督預訓練 + 規模律,催生了 GPT 系列:GPT-3(2020)以 1750 億參數展示少樣本學習的湧現能力。但「會接龍」不等於「會聽話」——2022 年 InstructGPTRLHF(人類回饋強化學習) 把模型對齊到人類意圖,直接促成 ChatGPT。2024 年後,推理模型(先思考再回答)Agent(工具使用) 成為新前沿。

這次和前兩次的差別

前兩次寒冬源於「能力遠不及承諾」。這一波不同:AI 已大規模落地、產生真實營收與數億使用者。但歷史的教訓依然適用——真實的技術進展誇大的宣傳總是並存。研究者的素養,是能在兩者之間保持清醒:既不低估方法論轉移的深遠,也不被線性外推的樂觀沖昏頭。

深入探討(研究所視角)

人工智慧的三次浪潮,本質上是「以什麼為知識載體」的典範遞嬗:符號邏輯、淺層統計、再到深層分布式表徵。若以可計算性與可學習性的角度回望,兩次寒冬並非偶然的資金退潮,而是當時模型族(model class)的表達力可學習性之間結構性矛盾的暴露。理解這層矛盾,才能看清第三次浪潮為何不同。

表達力與可學習性的張力

第一次寒冬的導火線之一,是 Minsky 與 Papert 對單層感知機的分析:線性閾值單元無法表徵 XOR 這類非線性可分函數。這在數學上對應於 VC 維度(Vapnik–Chervonenkis dimension)所刻畫的假設空間容量限制。多層網路雖在理論上具備普適逼近能力——Cybenko 的普適逼近定理指出,單一隱藏層配合 sigmoidal 激活即可在緊緻集上以任意精度逼近連續函數:

$$\sup_{x \in K} \left| f(x) - \sum_{i=1}^{N} \alpha_i \,\sigma(w_i^\top x + b_i) \right| < \varepsilon$$

但「存在性」不等於「可學習性」。深層網路的訓練長期受困於梯度消失:反向傳播中梯度為各層 Jacobian 的連乘,當 $\prod_{l} \|J_l\| \to 0$ 時底層幾乎不更新。第二次寒冬(專家系統的崩解)則暴露了符號系統的知識獲取瓶頸與脆性——手工規則無法隨環境分布漂移而泛化。

第三次浪潮的理論張力

深度學習的成功反而帶來新的理論謎題。經典統計學習理論預測:當參數量遠超樣本數,模型應嚴重過擬合。然而現代過參數化網路在內插訓練資料($\hat{R}_{\text{emp}} \approx 0$)後仍能良好泛化,此即 Belkin 等人刻畫的雙重下降(double descent)現象——測試風險在內插門檻之後再度下降,違反傳統 bias–variance 直覺。對此的部分解釋包括隱式正則化:SGD 在過參數化解空間中偏好低範數、平坦極小值的解。

Transformer 的崛起則由 Vaswani 等人的自注意力機制驅動:

$$\text{Attention}(Q, K, V) = \mathrm{softmax}\!\left(\frac{QK^\top}{\sqrt{d_k}}\right) V$$

其全域配對使序列建模擺脫了 RNN 的順序依賴瓶頸。隨之而來的縮放律(Kaplan 等人、Hoffmann 等人的 Chinchilla 修正)以冪次律刻畫損失與參數量、資料量、計算量的關係,並揭示湧現能力(emergent abilities)——某些任務表現在跨越特定規模門檻後出現非線性躍升,至今缺乏完整理論解釋。

開放問題與跨主題連結

當前的根本開放問題涵蓋:可解釋性(機制可解釋性試圖逆向工程網路內部電路)、對齊與 RLHF 的理論保證、以及推理是否為真泛化或高階模式匹配。這些議題與計算學習理論、最佳化幾何、資訊理論(如資訊瓶頸假說對表徵壓縮的刻畫)乃至認知科學緊密交織。回望七十年,AI 史的真正主線並非演算法更迭,而是人類對「智慧可被計算化的程度」這一命題,不斷修正自身的理論邊界。

接著問 AI 助教

點一下複製提問,到 ClassroomGPT、優學伴(AIDA)或你的 UeduGPTs 頻道貼上,AI 會引用本專區內容回答。

AI 共讀助教正在陪你讀:人工智慧簡史:三次浪潮與兩次寒冬
嗨!我是這篇文章的共讀助教,只根據〈人工智慧簡史:三次浪潮與兩次寒冬〉的內容回答。可以問我「解釋某段」「舉個例子」「出題考我」,或反白文中段落後點下方「解釋選取段落」。