餅該怎麼分、訊號為何要燒錢：賽局理論的進階機制

從無名氏定理、Rubinstein 議價到機制設計與無秩序代價，看賽局理論如何從「預測行為」走向「設計規則」

進階 · 約 16 分鐘 ·#賽局理論#機制設計#重複賽局#議價賽局#資訊不對稱#無秩序代價

當「均衡存在」不再是終點：策略互動的精細結構

入門篇帶我們認識了囚徒困境、納許均衡（Nash Equilibrium）與「個體理性導致集體非理性」的洞見。但真正讓賽局理論成為現代經濟學核心工具的，不是「均衡存在」這個存在性定理，而是接下來的一連串追問：當均衡不只一個，我們該相信哪一個？當對手的「型別」藏在資訊不對稱的迷霧裡，理性該怎麼定義？當我們不只是被動預測行為，而是想主動設計規則去引導結果時，賽局論又能給什麼？

進階篇要做的，是把入門篇一筆帶過的幾個概念——重複賽局如何「證明」合作、拍賣為何能逼出誠實、訊號如何穿透資訊不對稱、自私行為的社會代價如何量化——拆開來，看清楚裡面的推導與張力。這不是更難的版本，而是更貼近研究與政策現場的版本：賽局理論真正被用來「設計」的地方。

賽局理論進階概念示意圖

重複賽局與無名氏定理：合作不是道德，是耐心

入門篇說過，把一次性囚徒困境變成「不知何時結束的重複賽局」，自利個體就能演化出合作。進階篇要把這句話寫成可以驗證的條件。

考慮兩位玩家無限次重複囚徒困境，每期報酬以折現因子（discount factor）$\delta \in (0,1)$ 加權，$\delta$ 越接近 1 表示越看重未來。某條策略路徑的總報酬寫成：

$$U_i = (1-\delta)\sum_{t=0}^{\infty} \delta^t \, u_i(t)$$

前面乘 $(1-\delta)$ 是為了把無窮級數正規化，讓它與單期報酬可以直接比較。

現在引入「冷酷觸發策略」（grim trigger）：一開始合作，只要對方背叛過一次，就永遠背叛報復。我們檢查它能否撐起合作。設合作每期得 $3$、單方背叛當期得 $5$、雙方背叛各得 $1$（這是標準囚徒困境的報酬排序 $T>R>P>S$，這裡 $T=5, R=3, P=1$）。

持續合作：每期 $3$，正規化後總報酬就是 $3$。
某期偷偷背叛：當期撈到 $5$，但從下期起對方永遠報復，自己也只能背叛，每期得 $1$。總報酬為 $(1-\delta)\big[5 + \delta\cdot 1 + \delta^2\cdot 1 + \cdots\big] = (1-\delta)\cdot 5 + \delta$。

合作能維持的條件是「合作不差於背叛」：

$$3 \ge (1-\delta)\cdot 5 + \delta \quad\Longleftrightarrow\quad \delta \ge \tfrac{1}{2}$$

也就是說，只要玩家夠有耐心（$\delta \ge 0.5$），相互合作就構成一個子賽局完美納許均衡。這就是合作的「機制」：它不靠善意，靠的是「背叛的短期甜頭」被「未來被報復的長期損失」抵銷。

把這個直覺推到極致，就是無名氏定理（Folk Theorem，又譯「大眾定理」）：在折現因子足夠接近 1 的無限重複賽局中，任何給每位玩家的報酬都高於其「最小最大值」（minmax，即對手聯手能把他壓到的最低保證報酬）的可行報酬組合，都可以被某個子賽局完美均衡支撐。

這個定理有兩面。光明面：它解釋了為什麼長期關係能孕育合作——商譽、外交默契、產業自律。黑暗面：它也意味著理論的預測力幾乎歸零。當「幾乎任何結果都能是均衡」時，賽局論就無法告訴你究竟會發生哪一個。這正是現代研究的張力來源——我們需要更強的工具去縮小可能性。

議價賽局：把「分餅」變成可解的問題

入門篇的賽局都是「選左或選右」的離散選擇。但很多互動的核心是分配：勞資談薪水、買賣議價、國際分攤減碳責任——如何切一塊大小固定的餅？

最優雅的解法之一是 Rubinstein 交替出價模型（1982）。兩人輪流提案如何分一塊大小為 1 的餅，對方可接受（賽局結束）或拒絕（換他提案）。關鍵摩擦是：每拖延一回合，餅就因折現而縮水，雙方折現因子各為 $\delta_1, \delta_2$。

這個看似無窮迴圈的賽局，竟有唯一的子賽局完美均衡。先提案者（玩家 1）的均衡分得：

$$x_1^* = \frac{1-\delta_2}{1-\delta_1\delta_2}$$

而且雙方在第一回合就達成協議，沒有任何拖延。推導的精髓是一個自我參照的論證：若玩家 1 此刻能拿到 $x_1^*$，那麼輪到玩家 2 提案時，他知道「拒絕後玩家 1 又能拿 $\delta_1 x_1^*$」，所以他只需給玩家 1 剛好 $\delta_1 x_1^*$ 就能讓他接受——把這個一致性條件解出來，就得到上式。

這個結果有兩個深刻含意。第一，耐心就是議價力量：你的 $\delta$ 越大（越拖得起、越不怕談判破裂），分到的餅越多。當 $\delta_1=\delta_2=\delta$ 時 $x_1^* = 1/(1+\delta)$，先手者略佔便宜，但隨 $\delta \to 1$ 趨近五五分。第二，它為 Nash 在 1950 年用公理化方法得到的「Nash 議價解」（Nash bargaining solution）提供了非合作的策略基礎——兩條看似無關的路徑指向同一個答案，這正是好理論的標誌。

機制設計：反過來工程的賽局論

入門篇結尾提到機制設計（mechanism design）是「反向工程的賽局論」。這裡把它拆開來看一個讓人拍案的例子。

設計者的困境是資訊不對稱：你想根據人們的真實偏好做決策，但偏好藏在他們心裡，他們有動機說謊。顯示原理（revelation principle）告訴我們：任何機制能達成的結果，都能用一個「讓誠實成為最佳策略」的直接機制達成。於是問題化約為——能不能設計規則，讓「說真話」變成誘因相容（incentive compatible）？

以拍賣為例。第一價格密封拍賣（出最高價者得標、付自己的出價）裡，理性的你會壓低出價，因為付的就是你寫的數字——這就扭曲了真實估值。但 Vickrey 的第二價格密封拍賣（出最高價者得標，但只付第二高的出價）有個神奇性質：誠實出價是弱主導策略。

直覺如下。你的出價 $b$ 只決定「你贏不贏」，不決定「你付多少」（付的是別人的第二高價 $p$）。若你的真實估值是 $v$：當 $v>p$ 時你想贏，誠實出 $v$ 必能贏且賺到 $v-p>0$；當 $v<p$ 時你不想贏（贏了倒虧），誠實出 $v$ 剛好讓你輸掉。無論別人出多少，「出 $v$」都不會比「出別的數字」差。說謊毫無好處——這就是誘因相容的威力。

數字範例：三人競標一幅畫，真實估值分別是甲 $100$、乙 $80$、丙 $60$（萬元）。在第二價格拍賣中，三人都誠實出價，甲以最高價得標，但只付第二高的 $80$。甲淨賺 $100-80=20$。沒有人需要勾心鬥角去猜別人會出多少——機制本身已經把策略性算計「設計掉了」。

這套思路的應用遠不止拍賣：Google 早期關鍵字廣告的 GSP 拍賣、頻譜執照標售、乃至 Gale–Shapley 延遲接受演算法用於住院醫師分發與學校選填——都是「設計規則使自利者自願達成好結果」的勝利。它也是近二十年諾貝爾經濟學獎的常客領域。

看一個例子：訊號賽局與「燒錢才可信」

把不完全資訊、動態、誘因三者揉在一起，最經典的就是 Spence 的就業市場訊號模型（job market signaling）。

設想勞動市場有兩種求職者：高能力（H）與低能力（L），雇主無法直接觀察，只看得到「是否取得文憑」。文憑本身不提升生產力，但對 L 而言取得文憑的成本更高（讀書更痛苦）。問題是：文憑能不能當作可信的能力訊號？

關鍵在成本的差異。假設市場願意付給「有文憑者」的薪資溢酬是 $\Delta w$，取得文憑的成本對 H 是 $c_H$、對 L 是 $c_L$，且 $c_L > c_H$。若參數滿足：

$$c_H < \Delta w < c_L$$

則出現一個分離均衡（separating equilibrium）：H 覺得文憑值得（溢酬 $>$ 成本），會去拿；L 覺得不值得（成本 $>$ 溢酬），不會拿。於是「有沒有文憑」就完美地把兩種人分開了，雇主據此給薪的信念也自我實現。

這推導出一個反直覺卻深刻的結論：訊號要可信，就必須對不同型別造成不同的代價。一句「我很厲害」誰都會說，所以毫無資訊量；但一個「只有真厲害的人才付得起」的昂貴舉動（多年苦讀、創業燒錢證明信心、企業砸重金保固），才能穿透資訊不對稱。這也呼應了動態賽局裡「可信威脅」的精神——承諾的可信度來自「綁住自己手腳」的實際代價，而非言語。分析這類賽局要用完美貝氏均衡（Perfect Bayesian Equilibrium），要求雇主依貝氏法則更新對求職者型別的信念，且在每個資訊集上信念與策略相互一致。

無秩序的代價：自私到底有多貴？

如果說無名氏定理是「合作如何可能」，那麼無秩序代價（Price of Anarchy, PoA）問的是相反的問題：當每個人都自私地走納許均衡，整體效率比起「上帝統一指揮的最優解」差多少？這是演算法賽局論（algorithmic game theory）獻給經濟學的禮物。

PoA 的定義很乾脆——最糟納許均衡的社會成本，除以社會最優成本：

$$\text{PoA} = \frac{\text{最糟均衡的社會總成本}}{\text{社會最優總成本}} \ge 1$$

最經典的場景是自私路由（selfish routing）與 Braess 悖論。想像每天有大量通勤者從 A 到 B，有兩條對稱路線。在某些路網中，新增一條看似更快的捷徑，反而會讓所有人的通勤時間都變長——因為自私的個體都湧向捷徑造成壅塞，均衡比沒有捷徑時更糟。這就是 Braess 悖論：擴建道路有時害人不淺。

更驚人的是 Roughgarden 與 Tardos 證明的定量結果：對於行駛成本隨流量線性增加的路網，自私路由的無秩序代價最多是 $4/3$。也就是說，再怎麼自私混亂，社會總成本最多比最優差 33%——這個上界與路網結構複雜度無關。這類結果把「自私的社會代價」從哲學辯論變成可計算的工程參數，直接指導壅塞收費、網路流量工程與雲端資源分配的設計。

它也反過來照亮了政策的角色：當 PoA 大於 1，就存在「用機制改善結局」的空間。一條恰當的壅塞費（庇古稅的賽局版本）能把自私均衡推向社會最優——這正是把賽局論、外部性與機制設計三者縫在一起的地方。

重點回顧

無名氏定理把「合作靠耐心」寫成精確條件：折現因子夠大（如 $\delta \ge 1/2$）時，合作可由觸發策略支撐為子賽局完美均衡；但代價是均衡多到讓理論失去預測力。
Rubinstein 議價模型證明交替出價有唯一均衡，且第一回合就成交；核心洞見是「耐心即議價力量」，並與 Nash 議價解殊途同歸。
機制設計反向工程賽局：靠顯示原理與誘因相容，第二價格拍賣讓「誠實出價」成為主導策略，把策略性算計「設計掉」。
訊號賽局揭示可信訊號的本質——必須對不同型別造成不同代價（$c_H < \Delta w < c_L$），昂貴才可信；用完美貝氏均衡分析。
無秩序代價量化自私的社會成本（線性路網上界 $4/3$）；Braess 悖論提醒我們，擴建選項有時反而讓均衡變糟。

深入探討（研究所視角）

進入研究前沿，賽局理論的問題會從「這個賽局的均衡是什麼」轉向「均衡概念本身是否站得住腳、能不能算、要不要假設超理性」。以下幾條線索值得追下去。

均衡的計算複雜度。 Nash 證明了有限賽局必存在均衡，但「存在」不等於「找得到」。Daskalakis、Goldberg 與 Papadimitriou 證明計算納許均衡是 PPAD-complete——一個被廣泛相信無法在多項式時間求解的複雜度類別。這對經濟學是個尖銳的哲學問題：如果連超級電腦都算不出均衡，憑什麼假設真人玩家能「達到」它？這推動了對「可學習的均衡」（如相關均衡 correlated equilibrium，計算上反而容易、且可由無悔學習動態收斂達成）的重視。相關均衡放寬了納許的獨立隨機化要求，允許一個公開訊號協調玩家，在交通號誌、拍賣協調等場景更貼近現實。

從超理性到有限理性。 古典賽局論假設玩家共同知道彼此都完全理性（common knowledge of rationality），但實驗一再打臉：在「猜 2/3 平均數」賽局或最後通牒賽局中，真人行為系統性偏離納許預測。層級思考模型（level-k / cognitive hierarchy）改以「我推測別人推測的深度有限」來建模，量子反應均衡（quantum response equilibrium, QRE）則讓玩家以「越好的策略機率越高、但不必然選最優」的方式反應。這些模型把心理現實納入，常能更好地擬合實驗資料，是行為賽局論（behavioral game theory）的支柱。

全域賽局與多重均衡的篩選。 入門篇的協調賽局有多個均衡，理論無法預測哪個勝出。Carlsson 與 van Damme 的全域賽局（global games）方法引入微小的私有資訊雜訊，竟能在許多協調賽局中唯一化均衡——這套技術成為分析貨幣危機、銀行擠兌（Morris–Shin）、政治革命「臨界點」的標準工具，把「焦點」這個含糊概念替換成可推導的閾值策略。

機制設計的邊界與不可能性。 機制設計很強大，但有鐵律擋路。Gibbard–Satterthwaite 定理證明：當有三個以上選項時，任何「非獨裁、可涵蓋所有選項」的投票機制都無法做到防策略操縱——說謊投票的誘因無法被徹底消除。Myerson–Satterthwaite 定理則證明：在雙邊資訊不對稱的議價中，不存在同時滿足效率、誠實、自願參與且預算平衡的機制——有些互利交易註定談不成。這些不可能性定理界定了「設計」的天花板，也讓我們對現實制度的不完美多一分理解。

跨領域的當代戰場。 賽局論早已是多智能體 AI 的理論骨架：對抗式訓練（GAN 本質是生成器與判別器的零和賽局）、多智能體強化學習的收斂性、以及 AlphaGo 之後對「自我對弈逼近均衡」的研究，都建立在賽局論之上。值得保持的清醒是：賽局理論的價值，從來不在於宣稱「人一定這樣算」，而在於它提供一副看清「策略互動結構」的眼鏡。當我們看懂了均衡為何穩定、訊號為何可信、規則如何塑造行為，就握住了改變規則、改善結局的施力點——這比預測任何單一結果都更有力量。

← 上一篇

兩個嫌犯的兩難：賽局理論與納許均衡入門

--

8

32.3%

140.05

82.02%

62,201

AI 回覆桌面通知

聊天訊息通知

聲音通知

更多設定