最高稅率該訂幾趴？最適稅制理論的公式與爭論

當政府看得到所得、看不到能力，重分配就成了一場資訊不對稱的賽局。從 Mirrlees 到 Diamond–Saez，本文把「稅率多高」從價值口號變成可計算、可被資料裁決的公式。

進階 · 約 15 分鐘 ·#公共經濟學#最適稅制#所得稅#機制設計#重分配

如果政府看不見「能力」，最高稅率該訂在幾趴？

入門篇我們從一盞裝不起來的路燈出發，認識了公共財、外部性、無謂損失，並以「效率對公平的拉鋸」收尾。當時我們承認：稅率訂多高，牽涉價值判斷，沒有純技術的答案。

這篇進階文章要挑戰的，正是那個被擱置的命題：「沒有純技術答案」其實只對了一半。 一旦我們把社會的價值判斷（要多重視窮人）寫成一個明確的函數，再把人的行為反應（被課重稅就少工作）寫成一個彈性，最適稅率就不再是隨便喊的政治數字，而是一條可以被估計、被計算出來的公式。

更迷人的是這條公式背後的張力：政府想重分配，卻看不見每個人的「賺錢能力」，只看得到「實際所得」。於是高能力者可以假裝成低能力者來少繳稅——這是一個資訊不對稱（asymmetric information）問題。整個現代最適稅制理論（optimal taxation theory），就是在這個「看不見能力」的約束下，推導出政府能做到的最好稅率表。我們這篇就把這條主線講透，並順帶澄清幾個連經濟系學生都常搞錯的迷思。

從 Ramsey 到 Mirrlees：問題換了，框架也換了

公共經濟學進階概念示意圖

入門篇提過 Ramsey 法則（Ramsey Rule）：要籌定額稅收又想把效率損失壓到最低，就對彈性低的商品課重稅。但 Ramsey 框架有個致命的盲點——它只談效率，完全不管公平。對民生必需品（彈性低）課重稅效率最高，可是必需品占窮人預算的比重遠高於富人，這等於是累退（regressive）的。Ramsey 給出的答案，在分配上往往令人無法接受。

1971 年，James Mirrlees（1996 年諾貝爾經濟學獎）改寫了整個問題。他不再問「對哪些商品課多少稅」，而是直接問：政府想重分配，但只能觀察到所得 $z$、觀察不到能力 $n$，那麼從所得到稅額的這張對應表 $T(z)$ 該長什麼樣子？

關鍵設定是：每個人的能力 $n$（也可理解為時薪）是私有資訊。所得是能力乘上勞動 $z = n \cdot l$。政府若想「對高能力者多課稅」，麻煩在於它分不出「一個高能力者少做一點」跟「一個低能力者拼命做」——兩者可能賺一樣多。稅制必須滿足誘因相容（incentive compatibility）：不能讓高能力者有誘因偽裝成低能力者。這個約束，正是讓重分配「漏水」（入門篇 Okun 的水桶比喻）的微觀根源。

把價值判斷寫成函數：社會福利與不平等趨避

要算出最適稅率，得先讓「社會多重視公平」這件事可計算。經濟學用 社會福利函數（Social Welfare Function, SWF） 來表達：

$$W = \int_{0}^{\infty} G\big(u(n)\big)\, f(n)\, dn$$

其中 $u(n)$ 是能力為 $n$ 者的效用，$f(n)$ 是能力的人口分布，而 $G(\cdot)$ 是一個凹函數（concave），凹的程度就代表社會的不平等趨避（inequality aversion）。

若 $G$ 是線性的（不凹），社會只在乎效用總和，這是功利主義（utilitarian）。
若 $G$ 凹到極致，社會只在乎最弱勢者的處境，這是 Rawls 的 最大化最小（maximin） 準則。

一個常用的參數化是 Atkinson 的設定，引入不平等趨避參數 $\gamma \geq 0$：

$$G(u) = \frac{u^{1-\gamma}}{1-\gamma}$$

$\gamma = 0$ 退化成功利主義；$\gamma \to \infty$ 趨近 Rawls。這一個參數，就把「社會該多照顧窮人」這個原本含糊的價值判斷，濃縮成一個可以放進公式的數字。 重點不是宣稱某個 $\gamma$ 才對，而是：一旦你選定 $\gamma$，最適稅率就被唯一地決定了。爭論於是從「稅率多少」前移到「我們社會的 $\gamma$ 是多少」——這是更誠實、更可討論的位置。

看一個例子：最高邊際稅率的 Diamond–Saez 公式

Mirrlees 原始模型的微分方程很難直接給出數字，但 Peter Diamond 與 Emmanuel Saez 在 2000 年代把它整理成一條可以用實證參數直接代入的公式，專門算「金字塔頂端」那一級的最適邊際稅率 $\tau^*$：

$$\tau^* = \frac{1 - g}{1 - g + a \cdot e}$$

三個輸入各有清楚的經濟意義：

$e$：應稅所得彈性（Elasticity of Taxable Income, ETI）。頂端富人面對稅率上升，會減少多少申報所得（少工作、做避稅、移民）。$e$ 愈大，加稅的效率代價愈高，最適稅率愈低。
$a$：所得分布頂端的帕累托參數（Pareto parameter），刻畫頂端有多「厚尾」。$a = z_m / (z_m - \bar{z})$ 的形式，衡量「再往上一單位所得」相對於「平均超額所得」的比例。
$g$：社會對「頂端那一塊錢」的邊際社會價值。如果社會幾乎不在乎富人多賺的錢（高不平等趨避），$g \approx 0$。

動手算一遍。 取實證上常被引用的數字：頂端帕累托參數對應 $a \approx 1.5$，應稅所得彈性 $e \approx 0.25$，並假設社會對頂端額外所得幾乎不賦予價值 $g \approx 0$。代入：

$$\tau^* = \frac{1 - 0}{1 - 0 + 1.5 \times 0.25} = \frac{1}{1.375} \approx 0.73$$

也就是說，在這組假設下，最高所得級距的最適邊際稅率約 73%。這正是 Diamond 與 Saez（2011）著名的估計。

但請注意這個數字對 $e$ 多敏感。若頂端富人的避稅與行為反應很強，$e = 0.5$：

$$\tau^* = \frac{1}{1 + 1.5 \times 0.5} = \frac{1}{1.75} \approx 0.57$$

最適稅率立刻掉到 57%。這就是現代公共財政的精髓：政策辯論的核心，被翻譯成「ETI 到底是多少」這個可以用資料估計的實證問題。 主張低稅的人實際上是在主張高 $e$；主張高稅的人在主張低 $e$。雙方終於有了一個共同的、可被資料裁決的戰場——這比意識形態對罵有用得多。

一個反直覺的角落：最高所得者的邊際稅率「應該」是零？

最適稅制理論裡有一個讓初學者跌破眼鏡的經典結果：在 Mirrlees 模型中，若能力分布有一個最高點（存在一個能力最強的人），那麼這個最頂端者面對的最適邊際稅率應該是零（zero top rate）。

直覺是這樣：對最頂端的人課邊際稅，只會扭曲他的勞動選擇（製造無謂損失），卻收不到任何重分配的好處——因為他上面沒有人了，這筆邊際稅不能用來「把更高所得者的稅轉給他」。既然有成本沒有重分配效益，最適邊際稅率就該是零。

那這跟前面算出的 73% 不是矛盾嗎？並不矛盾，而且正是辨別「念過」與「念懂」的分水嶺：

零稅率結果只適用於那唯一一個、嚴格的最高點——是一個測度為零的端點，對絕大多數人毫無政策意義。
真實所得分布的頂端是沒有明確上界的帕累托厚尾。Diamond–Saez 公式假設「頂端開放」，算的是頂端這一整段區間的稅率，這才是政策真正在乎的。
所以正確的理解是：理論的端點性質（零稅率）與政策相關的區間性質（高稅率）並不衝突，它們回答的是不同問題。把「頂端稅率為零」當成「富人不該被課稅」的依據，是對這個結果最常見的誤用。

Atkinson–Stiglitz 定理：有了好的所得稅，還需要對商品差別課稅嗎？

入門篇談過商品稅（Ramsey）。一個自然的進階問題是：當政府已經有一套設計良好的非線性所得稅，它還需不需要額外對不同商品課不同稅率（例如奢侈品重稅、必需品免稅）來幫忙重分配？

Atkinson–Stiglitz 定理（1976） 給出一個漂亮而強的答案：在特定條件下，不需要。 只要 (1) 所有消費者的偏好對「商品組合」與「勞動」是弱可分離（weakly separable） 的，且 (2) 偏好的次效用函數同質，那麼最適的間接稅就是對所有商品一致稅率（uniform commodity taxation）——所有重分配的工作交給所得稅就夠了，差別商品稅毫無額外貢獻。

這個定理的政策含義極深：它意味著「對奢侈品課重稅來幫窮人」這種直覺，在理論上往往是多餘甚至有害的——只要所得稅做得好，差別商品稅只會徒增扭曲。但定理的力量也來自它的例外：一旦商品消費與「能力」相關（例如高能力者特別偏好某些商品），或商品與勞動不可分離（例如托育、通勤這類與工作互補的支出），差別稅率就重新有了正當性。現實中對托育補貼、對與健康相關財貨的優惠，正是踩在 Atkinson–Stiglitz 的例外上。

機制設計的另一面：讓人說真話要付多少代價？

入門篇結尾提到 VCG 機制能誘導誠實揭露對公共財的偏好。這裡我們用一個具體的數字，把「Clarke 樞紐稅（Clarke pivot tax）」算給你看，順便揭露它的致命弱點。

動手試試：三個人決定要不要蓋公園

社區要決定是否蓋一座公園，成本 90 萬元，若蓋成由三人均攤，每人付 30 萬。三人對公園的真實價值（願付金額）分別是：

甲：40 萬（淨值 $+10$ 萬）
乙：20 萬（淨值 $-10$ 萬）
丙：45 萬（淨值 $+15$ 萬）

社會淨值總和 $= 10 - 10 + 15 = +15$ 萬 $> 0$，所以該蓋。VCG 機制要每個人申報淨值，並對「樞紐者」（pivotal，改變了集體決定的人）課一筆稅，金額等於他對其他人造成的外部成本。

看甲：若把甲拿掉，其他兩人淨值和 $= -10 + 15 = +5 > 0$，仍然蓋。甲不是樞紐者，Clarke 稅 = 0。
看丙：若把丙拿掉，其他兩人淨值和 $= 10 - 10 = 0$，結果在臨界、不蓋（或無差異）。丙改變了結果，是樞紐者；他對他人造成的影響使原本「不蓋」變「蓋」，Clarke 稅 = 5 萬（他必須補上若沒有他、別人會少掉的那 5 萬淨損的反面）。
乙同理檢查，非樞紐，稅 = 0。

可以證明：在這套規則下，誠實申報是每個人的優勢策略（dominant strategy）——謊報只會害到自己被課更多稅或錯失對自己有利的決定。這就是 VCG 的魔力：把搭便車的誘因連根拔除。

但代價是什麼？ 注意收到的 Clarke 稅（這裡是 5 萬）通常不等於蓋公園的資金缺口，而且這筆稅不能退還給這三個人（一退還就破壞了誠實誘因）。於是機制無法預算平衡（budget balance）——錢要嘛多收、要嘛少收，多出來的還得「燒掉」丟到系統外。這正是入門篇提過的 Gibbard–Satterthwaite 與 Myerson–Satterthwaite 一系不可能定理的縮影：誠實揭露、效率、預算平衡，三者通常不可兼得。 機制設計的真正藝術，是在這個三難中做明智的取捨，而不是天真地以為能全拿。

重點回顧

最適所得稅理論把「稅率該多高」從價值口號，轉化為「給定社會不平等趨避 $\gamma$ 與行為彈性 $e$，可被計算的公式」；核心約束是政府看得到所得、看不到能力的誘因相容問題。
Diamond–Saez 公式 $\tau^* = (1-g)/(1-g+a e)$ 把頂端最適稅率拆成三個可估計參數；其數值對應稅所得彈性 $e$ 極度敏感，這讓政策辯論收斂到「ETI 是多少」的實證問題。
頂端零稅率只是分布最高端點的端點性質，與政策相關的「頂端區間高稅率」並不矛盾，誤用此結果是常見陷阱。
Atkinson–Stiglitz 定理指出，在弱可分離偏好下，有了好的非線性所得稅，差別商品稅是多餘的；但其例外（商品與能力相關、與勞動互補）正是托育補貼等政策的理論依據。
VCG／Clarke 機制能誘導誠實揭露公共財偏好，但以無法預算平衡為代價——效率、誠實、預算平衡三者通常不可兼得。

深入探討（研究所視角）

若要再往前，這條主線還有數條值得深掘的支流。

Saez（2001）的「彈性方法」與顯示性偏好。 Diamond–Saez 公式之所以革命性，在於它把最適稅完全寫成可觀察的彈性與所得分布形狀的函數，繞過了 Mirrlees 模型對效用函數的細部假設。延伸閱讀應掌握「行為彈性」如何由補償彈性與所得效應構成，以及為何最適稅率公式對「沿著分布的彈性是否異質」非常敏感。實證上，ETI 的估計（Gruber–Saez 2002 起）成為一整個次文獻，且飽受「避稅 vs 真實勞動反應」的識別難題困擾——因為兩者福利涵義不同（避稅可透過拓寬稅基消除，真實反應不行）。

新動態公共財政（New Dynamic Public Finance）。 Mirrlees 是靜態的；當能力會隨時間隨機演變（今天的天才明天可能失能），最適稅制變成一個動態誘因問題。這條線（Golosov、Kocherlakota、Tsyvinski、Werning 等）導出著名的 逆歐拉方程（inverse Euler equation），並推論出最適的「跨期楔子（intertemporal wedge）」隱含對儲蓄的隱性課稅，為資本稅是否該為零（對立於 Chamley–Judd 的零資本稅結論）提供了全新視角。

行為公共財政（Behavioral Public Finance）。 一旦放棄完全理性，許多結論被改寫。租稅顯著性（tax salience，Chetty–Looney–Kroft 2009） 的實驗顯示：把稅「藏在結帳後」會降低消費者的反應，意味著租稅歸宿不再只由彈性決定，還取決於注意力。同理，內部性（internality，對自己未來的傷害，如過度消費含糖飲料）為 Pigou 稅提供了有別於外部性的第二個正當性基礎，但也帶來「政府是否該替人矯正自身偏誤」的家長制（paternalism）爭議。

最適稅與不平等的實證轉向。 Piketty–Saez–Stantcheva（2014）把頂端稅率模型擴充到三種行為反應（真實勞動、避稅、議價／尋租），其中「議價效應」意味著高稅率可能透過抑制 CEO 過度索酬而同時改善效率與分配，挑戰了傳統「效率—公平必有取捨」的鐵律。這也呼應 Okun 水桶比喻的一個深刻修正：在有尋租的世界裡，水桶未必漏水，重分配甚至可能把餅做大。

從一條看似冰冷的公式 $\tau^* = (1-g)/(1-g+a e)$ 出發，公共經濟學最終把「我們該如何共同生活、如何分擔與分享」這個古老的政治哲學問題，落實成一組可估計、可辯論、可被資料修正的參數。這不是把價值判斷消去，而是把它放到該放的位置——讓社會在看清代價之後，做出屬於自己的選擇。

← 上一篇

為什麼路燈不會有人「自願」掏錢買？公共經濟學入門

--

8

32.3%

140.05

82.02%

62,201

AI 回覆桌面通知

聊天訊息通知

聲音通知

更多設定