兩個嫌犯的兩難:賽局理論與納許均衡入門
從囚徒困境到納許均衡,理解策略互動如何同時解釋價格戰、軍備競賽與合作的起源。
兩個嫌犯、兩間偵訊室,為什麼他們都選擇背叛?
想像兩名共犯被捕,警方把他們分別關進不同偵訊室,無法串供。檢察官對兩人分別開出同樣的條件:如果你認罪、指控同夥,而對方保持沉默,你當污點證人無罪釋放,對方被判十年;如果兩人都認罪,各判五年;如果兩人都沉默,因證據不足只能各判一年。
站在「兩人整體」的角度,最好的結果顯然是都沉默——各判一年。但只要你站在「單一嫌犯」的位置仔細推敲,會發現一件不安的事:無論對方怎麼選,你認罪都比沉默划算。於是兩個理性的人,最後都選擇背叛,雙雙被判五年,落入比合作更糟的結局。
這就是著名的「囚徒困境」(Prisoner's Dilemma),也是賽局理論(Game Theory)最經典的入門。賽局理論研究的,正是這種「我的最佳選擇取決於你會怎麼選,而你的最佳選擇又取決於我會怎麼選」的策略互動(strategic interaction)。從企業定價、國際談判、到拍賣與選舉,只要有多個決策者彼此牽動,賽局理論就是分析的共同語言。

賽局的四個基本要素
要把一個現實情境寫成可以分析的「賽局」(game),我們需要四個要素:
- 參與者(players):做決策的主體,例如上面的兩名嫌犯、兩家競爭廠商、兩個國家。
- 策略(strategies):每位參與者可以選擇的行動方案。嫌犯的策略集合是 $\{\text{認罪}, \text{沉默}\}$。
- 報酬(payoffs):每種策略組合下,每位參與者得到的結果,通常用數字表示效用或利潤(負數代表刑期、損失)。
- 資訊(information):參與者在做決策時知道什麼。是否知道對方的選擇?是否知道對方的報酬結構?
把囚徒困境寫成報酬矩陣(payoff matrix),會長這樣(每格中前者為甲的報酬、後者為乙的報酬,以「負刑期」表示,數字越大越好):
| 乙沉默 | 乙認罪 | |
|---|---|---|
| 甲沉默 | (−1, −1) | (−10, 0) |
| 甲認罪 | (0, −10) | (−5, −5) |
這種寫法稱為標準式(normal form)或策略式賽局,適合描述參與者「同時」做決策的情境。
主導策略:不管對方怎麼做,我都這樣選
回到那個讓人不安的推理。我們站在甲的角度逐欄檢查:
- 如果乙沉默:甲沉默得 $-1$,甲認罪得 $0$。認罪較好。
- 如果乙認罪:甲沉默得 $-10$,甲認罪得 $-5$。認罪較好。
無論乙怎麼選,甲認罪都嚴格優於沉默。這種「不管對手做什麼,某個策略永遠比其他策略好」的選擇,稱為嚴格主導策略(strictly dominant strategy)。由對稱性,乙的主導策略也是認罪。
當每位參與者都有主導策略時,結果很容易預測:大家都選主導策略,於是落在 (認罪, 認罪) = $(-5, -5)$。
這裡藏著賽局理論最深刻的洞見之一:個體理性可能導致集體非理性。兩人都遵循自己的最佳邏輯,卻一起走向比合作更糟的結果。這不是因為他們愚蠢,而恰恰是因為他們聰明。許多現實困境——軍備競賽、過度捕撈、廣告軍備戰、環境污染——本質上都是放大版的囚徒困境。
納許均衡:互為最佳回應的穩定點
主導策略很好用,但大多數賽局裡沒有人擁有主導策略。我們需要一個更一般的「均衡」概念,這就是納許均衡(Nash Equilibrium),由數學家 John Nash 於 1950 年提出,後來為他贏得諾貝爾經濟學獎。
納許均衡的定義是:一組策略組合,使得在其他人策略不變的前提下,沒有任何一位參與者能靠單方面改變策略讓自己變得更好。換句話說,每個人的策略都是對「別人策略」的最佳回應(best response),大家「鎖死」在一個誰也不想偏離的狀態。
用數學表達,設參與者 $i$ 的策略為 $s_i$、其他人策略合稱 $s_{-i}$、報酬函數為 $u_i$。策略組合 $(s_1^*, \dots, s_n^*)$ 是納許均衡,當且僅當對每一位 $i$、每一個可選策略 $s_i$:
$$u_i(s_i^*, s_{-i}^*) \ge u_i(s_i, s_{-i}^*)$$
在囚徒困境裡,(認罪, 認罪) 就是唯一的納許均衡:站在這一格,甲若單方面改成沉默,報酬從 $-5$ 掉到 $-10$,更糟;乙也一樣。所以沒人想動,這格是穩定的。
請特別注意一個常見迷思:納許均衡不保證是對大家最好的結果。(沉默, 沉默) 對兩人整體更好(各 $-1$),但它不是納許均衡——因為站在那一格,任何一方都有誘因偷偷改認罪去拿 $0$。均衡談的是「穩定」,不是「最優」。
看一個例子:兩家咖啡店的價格戰
假設一條街上只有兩家咖啡店,A 與 B,各自可選「高價」或「低價」。報酬是每月利潤(萬元):
| B 高價 | B 低價 | |
|---|---|---|
| A 高價 | (8, 8) | (2, 10) |
| A 低價 | (10, 2) | (4, 4) |
我們用「畫底線找最佳回應」的方法找均衡:
- 若 B 高價,A 比較 8 與 10,選低價(10)→ 在 (低價, 高價) 的 A 報酬下底線。
- 若 B 低價,A 比較 2 與 4,選低價(4)→ 在 (低價, 低價) 的 A 報酬下底線。
- 由對稱性,B 也永遠選低價。
兩個報酬都被劃底線的格子是 (低價, 低價) = $(4, 4)$,這就是納許均衡。明明兩家都高價可以各賺 8,卻因為各自都想搶客而陷入低價,雙雙只賺 4。這正是現實中價格戰、促銷大戰背後的賽局結構,也解釋了為什麼廠商有強烈動機去「合謀」維持高價(卡特爾),以及為什麼反托拉斯法要禁止這種合謀。
沒有純策略均衡時:混合策略
有些賽局找不到上述那種「你選定一個動作」的純策略納許均衡。最典型的是「猜拳」或「罰球方向」這類零和對抗。
想像足球罰球:射手可踢「左」或「右」,守門員可撲「左」或「右」。射手希望踢守門員不在的方向,守門員希望撲射手要踢的方向。任何固定組合都不穩定——只要對方猜到你的固定選擇,就能反制你。
解法是混合策略(mixed strategy):以機率隨機化自己的行動。Nash 在 1950 年證明了一個劃時代的結果:任何有限參與者、有限策略的賽局,至少存在一個納許均衡(可能是混合策略)。也就是說,均衡永遠存在,只是可能要用機率來描述。在罰球例子裡,雙方各以某個機率隨機選邊,使對手無法藉由偏向某邊而占便宜,這個隨機化的組合就是混合策略納許均衡。
動手試試:協調賽局
請你試著分析下面這個「該靠左還右開車」的協調賽局(coordination game)。兩位駕駛迎面而來,各選「靠左」或「靠右」,撞上得 $0$、順利錯車得 $1$:
| 乙靠左 | 乙靠右 | |
|---|---|---|
| 甲靠左 | (1, 1) | (0, 0) |
| 甲靠右 | (0, 0) | (1, 1) |
用畫底線法你會發現有兩個純策略納許均衡:(靠左, 靠左) 與 (靠右, 靠右)。這帶出兩個重要觀念:第一,均衡可能不只一個;第二,「大家都靠左」或「大家都靠右」本身沒有對錯,重點是協調一致——這正是交通規則、技術標準(如插座規格、鍵盤排列)存在的賽局意義。哪一個均衡最後勝出,往往取決於歷史、慣例或所謂的「焦點」(focal point)。
動態賽局與「可信的威脅」
到目前為止我們談的都是「同時出招」。但很多互動是有先後順序的,這時要用展開式(extensive form)賽局,畫成一棵決策樹。
舉例:一家在位廠商(incumbent)與一家想進入市場的新廠商(entrant)。新廠商先決定「進入」或「不進入」;若進入,在位者再決定「打價格戰」或「容忍」。在位者可能放話:「你敢進來我就打到你死」。但若打價格戰會兩敗俱傷,這個威脅其實不可信——真的進來了,在位者選容忍才理性。
分析動態賽局要用逆向歸納(backward induction):從決策樹的末端往回推,先看最後一步誰會怎麼選,再倒推前面。由此得到的均衡稱為子賽局完美納許均衡(subgame perfect Nash equilibrium),它會自動排除那些「靠空洞威脅撐起來」的不合理均衡。這個概念解釋了為什麼承諾要可信,必須搭配「綁住自己手腳」的實際行動(如簽合約、燒掉退路、建立聲譽),光是嘴上說說沒有用。
重複賽局:合作如何可能
囚徒困境的悲觀結論「理性人必然背叛」,其實有一個重要前提:賽局只玩一次。如果同樣兩人要重複互動很多次呢?
在重複賽局(repeated game)中,未來的合作或報復成為今天行為的影響因素。著名的「以牙還牙」(Tit-for-Tat)策略——第一回合合作,之後對方上一回合怎麼對我、我這回合就怎麼對他——能在反覆互動中誘導出穩定合作。直覺是:如果你今天背叛,明天就會被報復,只要你夠重視未來(折現率夠高、互動次數夠多),維持合作反而更划算。
這解釋了現實世界中許多合作的起源:商場上的長期客戶關係、國與國的外交默契、甚至生物界的互惠行為。合作不需要靠道德說教,只要把「一次性賽局」變成「不知何時結束的重複賽局」,自利的個體也能演化出合作。這就是賽局理論最迷人的轉折之一。
重點回顧
- 賽局 = 參與者 + 策略 + 報酬 + 資訊。只要多個決策者彼此牽動,就能用賽局分析。
- 主導策略是不管對手怎麼做都最好的選擇;囚徒困境告訴我們,人人理性可能導致集體變糟。
- 納許均衡是「互為最佳回應」的穩定點——沒人想單方面偏離,但它不保證對大家最好。
- Nash 證明有限賽局必存在均衡,必要時以混合策略(隨機化)達成;協調賽局可能有多個均衡。
- 動態賽局用逆向歸納求子賽局完美均衡,排除不可信威脅;重複賽局讓自利個體也能演化出合作。
深入探討(研究所視角)
在研究所層級,賽局理論會從「找均衡」走向「為什麼是這個均衡、它穩不穩、資訊如何改變一切」。以下是幾條值得深入的線索。
均衡精煉(equilibrium refinements)。 既然賽局常有多重均衡,純粹的納許概念太寬鬆。學者發展了一系列「精煉」標準來篩選合理均衡:Selten 的子賽局完美均衡與顫抖手完美均衡(trembling-hand perfect equilibrium,要求均衡在微小錯誤擾動下仍穩健)、Kreps 與 Wilson 的序列均衡(sequential equilibrium,要求離均衡路徑上的信念也要一致)。這些工具的共同目標,是把「邏輯上成立但現實不合理」的均衡剔除。
不完全資訊與貝氏賽局(Bayesian games)。 現實中你常不知道對手的「型別」(type)——他成本高還是低?他好戰還是溫和?Harsanyi 引入機率分布描述對手型別,定義了貝氏納許均衡(Bayesian Nash Equilibrium),動態版本則是完美貝氏均衡(Perfect Bayesian Equilibrium),要求參與者依貝氏法則更新信念。這套框架是訊號賽局(signaling)的基礎:教育為何能當作能力的訊號(Spence 的就業市場訊號模型)、保險市場為何會逆選擇(adverse selection)、二手車市場為何會崩潰(Akerlof 的檸檬市場)。資訊不對稱與賽局結合,催生了整個資訊經濟學。
機制設計(mechanism design):反向工程的賽局論。 一般賽局是「給定規則,預測行為」;機制設計反過來問「我想要某種結果,該設計怎樣的規則(賽局),讓自利的參與者自願達成」。核心概念是誘因相容(incentive compatibility)與顯示原理(revelation principle)。經典應用包括 Vickrey 的次價密封拍賣(出價者誠實出價是主導策略)、最適拍賣理論(Myerson)、以及配對市場設計(Gale–Shapley 延遲接受演算法,用於住院醫師分發、學校選填、器官交換)。這也是近年諾貝爾獎的常客領域。
演化賽局論(evolutionary game theory)。 它放下「參與者超理性」的假設,改問「哪些策略能在族群中存活、擴散」。核心概念是演化穩定策略(evolutionarily stable strategy, ESS)與複製動態(replicator dynamics)。它把賽局論連結到生物演化、文化傳播與社會規範的形成,也為「合作為何能在自利世界中出現」提供了不依賴前瞻理性的解釋。
跨領域連結。 賽局理論早已超出經濟學:在政治學用於投票與聯盟、在電腦科學發展出演算法賽局論(algorithmic game theory,研究均衡的計算複雜度與「無秩序代價」price of anarchy)、在 AI 領域是多智能體強化學習與對抗式訓練(如 GAN)的理論基底。值得反思的限制是:實驗經濟學一再發現,真人的行為常偏離納許預測(如最後通牒賽局中人們會拒絕不公平的分配),這推動了行為賽局論(behavioral game theory)的興起——把公平、互惠、有限理性納入模型。對學習者而言,賽局理論的價值不在於「人一定這樣算」,而在於它提供了一副看清「策略互動結構」的眼鏡,讓我們在合作與衝突的縫隙中,找到改變規則、改善結局的施力點。