兩個嫌犯的兩難：賽局理論與納許均衡入門

從囚徒困境到納許均衡，理解策略互動如何同時解釋價格戰、軍備競賽與合作的起源。

中級 · 約 14 分鐘 ·#賽局理論#納許均衡#囚徒困境#策略互動#應用經濟

兩個嫌犯、兩間偵訊室，為什麼他們都選擇背叛？

想像兩名共犯被捕，警方把他們分別關進不同偵訊室，無法串供。檢察官對兩人分別開出同樣的條件：如果你認罪、指控同夥，而對方保持沉默，你當污點證人無罪釋放，對方被判十年；如果兩人都認罪，各判五年；如果兩人都沉默，因證據不足只能各判一年。

站在「兩人整體」的角度，最好的結果顯然是都沉默——各判一年。但只要你站在「單一嫌犯」的位置仔細推敲，會發現一件不安的事：無論對方怎麼選，你認罪都比沉默划算。於是兩個理性的人，最後都選擇背叛，雙雙被判五年，落入比合作更糟的結局。

這就是著名的「囚徒困境」（Prisoner's Dilemma），也是賽局理論（Game Theory）最經典的入門。賽局理論研究的，正是這種「我的最佳選擇取決於你會怎麼選，而你的最佳選擇又取決於我會怎麼選」的策略互動（strategic interaction）。從企業定價、國際談判、到拍賣與選舉，只要有多個決策者彼此牽動，賽局理論就是分析的共同語言。

賽局理論概念示意圖

賽局的四個基本要素

要把一個現實情境寫成可以分析的「賽局」（game），我們需要四個要素：

參與者（players）：做決策的主體，例如上面的兩名嫌犯、兩家競爭廠商、兩個國家。
策略（strategies）：每位參與者可以選擇的行動方案。嫌犯的策略集合是 $\{\text{認罪}, \text{沉默}\}$。
報酬（payoffs）：每種策略組合下，每位參與者得到的結果，通常用數字表示效用或利潤（負數代表刑期、損失）。
資訊（information）：參與者在做決策時知道什麼。是否知道對方的選擇？是否知道對方的報酬結構？

把囚徒困境寫成報酬矩陣（payoff matrix），會長這樣（每格中前者為甲的報酬、後者為乙的報酬，以「負刑期」表示，數字越大越好）：

	乙沉默	乙認罪
甲沉默	(−1, −1)	(−10, 0)
甲認罪	(0, −10)	(−5, −5)

這種寫法稱為標準式（normal form）或策略式賽局，適合描述參與者「同時」做決策的情境。

主導策略：不管對方怎麼做，我都這樣選

回到那個讓人不安的推理。我們站在甲的角度逐欄檢查：

如果乙沉默：甲沉默得 $-1$，甲認罪得 $0$。認罪較好。
如果乙認罪：甲沉默得 $-10$，甲認罪得 $-5$。認罪較好。

無論乙怎麼選，甲認罪都嚴格優於沉默。這種「不管對手做什麼，某個策略永遠比其他策略好」的選擇，稱為嚴格主導策略（strictly dominant strategy）。由對稱性，乙的主導策略也是認罪。

當每位參與者都有主導策略時，結果很容易預測：大家都選主導策略，於是落在 (認罪, 認罪) = $(-5, -5)$。

這裡藏著賽局理論最深刻的洞見之一：個體理性可能導致集體非理性。兩人都遵循自己的最佳邏輯，卻一起走向比合作更糟的結果。這不是因為他們愚蠢，而恰恰是因為他們聰明。許多現實困境——軍備競賽、過度捕撈、廣告軍備戰、環境污染——本質上都是放大版的囚徒困境。

納許均衡：互為最佳回應的穩定點

主導策略很好用，但大多數賽局裡沒有人擁有主導策略。我們需要一個更一般的「均衡」概念，這就是納許均衡（Nash Equilibrium），由數學家 John Nash 於 1950 年提出，後來為他贏得諾貝爾經濟學獎。

納許均衡的定義是：一組策略組合，使得在其他人策略不變的前提下，沒有任何一位參與者能靠單方面改變策略讓自己變得更好。換句話說，每個人的策略都是對「別人策略」的最佳回應（best response），大家「鎖死」在一個誰也不想偏離的狀態。

用數學表達，設參與者 $i$ 的策略為 $s_i$、其他人策略合稱 $s_{-i}$、報酬函數為 $u_i$。策略組合 $(s_1^*, \dots, s_n^*)$ 是納許均衡，當且僅當對每一位 $i$、每一個可選策略 $s_i$：

$$u_i(s_i^*, s_{-i}^*) \ge u_i(s_i, s_{-i}^*)$$

在囚徒困境裡，(認罪, 認罪) 就是唯一的納許均衡：站在這一格，甲若單方面改成沉默，報酬從 $-5$ 掉到 $-10$，更糟；乙也一樣。所以沒人想動，這格是穩定的。

請特別注意一個常見迷思：納許均衡不保證是對大家最好的結果。(沉默, 沉默) 對兩人整體更好（各 $-1$），但它不是納許均衡——因為站在那一格，任何一方都有誘因偷偷改認罪去拿 $0$。均衡談的是「穩定」，不是「最優」。

看一個例子：兩家咖啡店的價格戰

假設一條街上只有兩家咖啡店，A 與 B，各自可選「高價」或「低價」。報酬是每月利潤（萬元）：

	B 高價	B 低價
A 高價	(8, 8)	(2, 10)
A 低價	(10, 2)	(4, 4)

我們用「畫底線找最佳回應」的方法找均衡：

若 B 高價，A 比較 8 與 10，選低價（10）→ 在 (低價, 高價) 的 A 報酬下底線。
若 B 低價，A 比較 2 與 4，選低價（4）→ 在 (低價, 低價) 的 A 報酬下底線。
由對稱性，B 也永遠選低價。

兩個報酬都被劃底線的格子是 (低價, 低價) = $(4, 4)$，這就是納許均衡。明明兩家都高價可以各賺 8，卻因為各自都想搶客而陷入低價，雙雙只賺 4。這正是現實中價格戰、促銷大戰背後的賽局結構，也解釋了為什麼廠商有強烈動機去「合謀」維持高價（卡特爾），以及為什麼反托拉斯法要禁止這種合謀。

沒有純策略均衡時：混合策略

有些賽局找不到上述那種「你選定一個動作」的純策略納許均衡。最典型的是「猜拳」或「罰球方向」這類零和對抗。

想像足球罰球：射手可踢「左」或「右」，守門員可撲「左」或「右」。射手希望踢守門員不在的方向，守門員希望撲射手要踢的方向。任何固定組合都不穩定——只要對方猜到你的固定選擇，就能反制你。

解法是混合策略（mixed strategy）：以機率隨機化自己的行動。Nash 在 1950 年證明了一個劃時代的結果：任何有限參與者、有限策略的賽局，至少存在一個納許均衡（可能是混合策略）。也就是說，均衡永遠存在，只是可能要用機率來描述。在罰球例子裡，雙方各以某個機率隨機選邊，使對手無法藉由偏向某邊而占便宜，這個隨機化的組合就是混合策略納許均衡。

動手試試：協調賽局

請你試著分析下面這個「該靠左還右開車」的協調賽局（coordination game）。兩位駕駛迎面而來，各選「靠左」或「靠右」，撞上得 $0$、順利錯車得 $1$：

	乙靠左	乙靠右
甲靠左	(1, 1)	(0, 0)
甲靠右	(0, 0)	(1, 1)

用畫底線法你會發現有兩個純策略納許均衡：(靠左, 靠左) 與 (靠右, 靠右)。這帶出兩個重要觀念：第一，均衡可能不只一個；第二，「大家都靠左」或「大家都靠右」本身沒有對錯，重點是協調一致——這正是交通規則、技術標準（如插座規格、鍵盤排列）存在的賽局意義。哪一個均衡最後勝出，往往取決於歷史、慣例或所謂的「焦點」（focal point）。

動態賽局與「可信的威脅」

到目前為止我們談的都是「同時出招」。但很多互動是有先後順序的，這時要用展開式（extensive form）賽局，畫成一棵決策樹。

舉例：一家在位廠商（incumbent）與一家想進入市場的新廠商（entrant）。新廠商先決定「進入」或「不進入」；若進入，在位者再決定「打價格戰」或「容忍」。在位者可能放話：「你敢進來我就打到你死」。但若打價格戰會兩敗俱傷，這個威脅其實不可信——真的進來了，在位者選容忍才理性。

分析動態賽局要用逆向歸納（backward induction）：從決策樹的末端往回推，先看最後一步誰會怎麼選，再倒推前面。由此得到的均衡稱為子賽局完美納許均衡（subgame perfect Nash equilibrium），它會自動排除那些「靠空洞威脅撐起來」的不合理均衡。這個概念解釋了為什麼承諾要可信，必須搭配「綁住自己手腳」的實際行動（如簽合約、燒掉退路、建立聲譽），光是嘴上說說沒有用。

重複賽局：合作如何可能

囚徒困境的悲觀結論「理性人必然背叛」，其實有一個重要前提：賽局只玩一次。如果同樣兩人要重複互動很多次呢？

在重複賽局（repeated game）中，未來的合作或報復成為今天行為的影響因素。著名的「以牙還牙」（Tit-for-Tat）策略——第一回合合作，之後對方上一回合怎麼對我、我這回合就怎麼對他——能在反覆互動中誘導出穩定合作。直覺是：如果你今天背叛，明天就會被報復，只要你夠重視未來（折現率夠高、互動次數夠多），維持合作反而更划算。

這解釋了現實世界中許多合作的起源：商場上的長期客戶關係、國與國的外交默契、甚至生物界的互惠行為。合作不需要靠道德說教，只要把「一次性賽局」變成「不知何時結束的重複賽局」，自利的個體也能演化出合作。這就是賽局理論最迷人的轉折之一。

重點回顧

賽局 = 參與者 + 策略 + 報酬 + 資訊。只要多個決策者彼此牽動，就能用賽局分析。
主導策略是不管對手怎麼做都最好的選擇；囚徒困境告訴我們，人人理性可能導致集體變糟。
納許均衡是「互為最佳回應」的穩定點——沒人想單方面偏離，但它不保證對大家最好。
Nash 證明有限賽局必存在均衡，必要時以混合策略（隨機化）達成；協調賽局可能有多個均衡。
動態賽局用逆向歸納求子賽局完美均衡，排除不可信威脅；重複賽局讓自利個體也能演化出合作。

深入探討（研究所視角）

在研究所層級，賽局理論會從「找均衡」走向「為什麼是這個均衡、它穩不穩、資訊如何改變一切」。以下是幾條值得深入的線索。

均衡精煉（equilibrium refinements）。 既然賽局常有多重均衡，純粹的納許概念太寬鬆。學者發展了一系列「精煉」標準來篩選合理均衡：Selten 的子賽局完美均衡與顫抖手完美均衡（trembling-hand perfect equilibrium，要求均衡在微小錯誤擾動下仍穩健）、Kreps 與 Wilson 的序列均衡（sequential equilibrium，要求離均衡路徑上的信念也要一致）。這些工具的共同目標，是把「邏輯上成立但現實不合理」的均衡剔除。

不完全資訊與貝氏賽局（Bayesian games）。 現實中你常不知道對手的「型別」（type）——他成本高還是低？他好戰還是溫和？Harsanyi 引入機率分布描述對手型別，定義了貝氏納許均衡（Bayesian Nash Equilibrium），動態版本則是完美貝氏均衡（Perfect Bayesian Equilibrium），要求參與者依貝氏法則更新信念。這套框架是訊號賽局（signaling）的基礎：教育為何能當作能力的訊號（Spence 的就業市場訊號模型）、保險市場為何會逆選擇（adverse selection）、二手車市場為何會崩潰（Akerlof 的檸檬市場）。資訊不對稱與賽局結合，催生了整個資訊經濟學。

機制設計（mechanism design）：反向工程的賽局論。 一般賽局是「給定規則，預測行為」；機制設計反過來問「我想要某種結果，該設計怎樣的規則（賽局），讓自利的參與者自願達成」。核心概念是誘因相容（incentive compatibility）與顯示原理（revelation principle）。經典應用包括 Vickrey 的次價密封拍賣（出價者誠實出價是主導策略）、最適拍賣理論（Myerson）、以及配對市場設計（Gale–Shapley 延遲接受演算法，用於住院醫師分發、學校選填、器官交換）。這也是近年諾貝爾獎的常客領域。

演化賽局論（evolutionary game theory）。 它放下「參與者超理性」的假設，改問「哪些策略能在族群中存活、擴散」。核心概念是演化穩定策略（evolutionarily stable strategy, ESS）與複製動態（replicator dynamics）。它把賽局論連結到生物演化、文化傳播與社會規範的形成，也為「合作為何能在自利世界中出現」提供了不依賴前瞻理性的解釋。

跨領域連結。 賽局理論早已超出經濟學：在政治學用於投票與聯盟、在電腦科學發展出演算法賽局論（algorithmic game theory，研究均衡的計算複雜度與「無秩序代價」price of anarchy）、在 AI 領域是多智能體強化學習與對抗式訓練（如 GAN）的理論基底。值得反思的限制是：實驗經濟學一再發現，真人的行為常偏離納許預測（如最後通牒賽局中人們會拒絕不公平的分配），這推動了行為賽局論（behavioral game theory）的興起——把公平、互惠、有限理性納入模型。對學習者而言，賽局理論的價值不在於「人一定這樣算」，而在於它提供了一副看清「策略互動結構」的眼鏡，讓我們在合作與衝突的縫隙中，找到改變規則、改善結局的施力點。

餅該怎麼分、訊號為何要燒錢：賽局理論的進階機制

--

8

32.3%

140.05

82.02%

62,201

AI 回覆桌面通知

聊天訊息通知

聲音通知

更多設定