不等式（進階）：從均值不等式到凸性與 L^p 空間

當均值不等式、柯西–施瓦茨與 Jensen 不等式被凸性統一，一條「比大小」如何撐起整個現代分析學

進階 · 約 16 分鐘 ·#不等式#凸性#Jensen不等式#柯西施瓦茨#Lp空間#最佳化

當「平均」不只一種：一條不等式如何串起整個分析學

入門篇我們處理過「比大小」這件事——移項、變號、代入數線。但真正讓不等式從一項代數技巧躍升為現代數學核心工具的，是這個看似樸素的觀察：對同一組正數，算術平均、幾何平均、調和平均之間有固定的大小順序，而且這個順序永遠不會改變。

考慮一個具體情境。你要在固定周長 $L$ 的條件下圍出最大的矩形面積。設兩邊為 $a, b$，則 $a+b = L/2$ 固定，要最大化 $ab$。如果你已學過微積分，會用拉格朗日乘子或求導；但其實一行不等式就能解決，而且還告訴你等號何時成立——也就是最佳解的長相。這正是進階不等式的威力：它不只回答「誰大誰小」，還同時刻畫了「極值在哪裡達成」。

本篇我們把焦點放在三個入門篇沒細談的層次：均值不等式族（AM–GM–HM）的內在結構、柯西–施瓦茨（Cauchy–Schwarz）作為幾何投影的本質，以及把這一切統一起來的凸性（convexity）與 Jensen 不等式。最後我們會看到，這些「高中競賽工具」其實是泛函分析、機率論與最佳化理論的地基。

$不等式進階概念示意圖$

均值的階梯：AM–GM–HM 的結構

給定 $n$ 個正實數 $x_1, x_2, \dots, x_n$，定義三種平均：

$$ \text{算術平均 } A = \frac{x_1 + x_2 + \cdots + x_n}{n}, \quad \text{幾何平均 } G = \sqrt[n]{x_1 x_2 \cdots x_n}, $$

$$ \text{調和平均 } H = \frac{n}{\dfrac{1}{x_1} + \dfrac{1}{x_2} + \cdots + \dfrac{1}{x_n}}. $$

核心定理（均值不等式，AM–GM–HM inequality）是：

$$ A \ge G \ge H, $$

而且三個等號同時成立，當且僅當 $x_1 = x_2 = \cdots = x_n$。

這個鏈條不是巧合，而是同一個函數族的不同切片。事實上它們都屬於冪平均（power mean）家族：

$$ M_p = \left( \frac{1}{n} \sum_{i=1}^{n} x_i^{\,p} \right)^{1/p}. $$

當 $p = 1$ 得到算術平均 $A$；當 $p = -1$ 得到調和平均 $H$；而 $p \to 0$ 的極限（用對數展開可證）正是幾何平均 $G$。冪平均不等式（power mean inequality）說：$M_p$ 對 $p$ 單調遞增。於是

$$ M_{-1} \le M_0 \le M_1 \quad\Longleftrightarrow\quad H \le G \le A. $$

換句話說，AM–GM–HM 不是三條孤立的事實，而是一條連續曲線 $p \mapsto M_p$ 上的三個取樣點。理解這一點，你就不會再把它們當成需要分別背誦的公式。

看一個例子

回到開頭的矩形問題：$a + b = s$（固定），求 $ab$ 的最大值。對兩個數套 AM–GM：

$$ \frac{a+b}{2} \ge \sqrt{ab} \quad\Longrightarrow\quad \sqrt{ab} \le \frac{s}{2} \quad\Longrightarrow\quad ab \le \frac{s^2}{4}. $$

等號成立當且僅當 $a = b = s/2$。所以固定周長下，正方形面積最大——這個幾何直覺被一行不等式精確證明，連等號條件都給了你最佳解。

反過來，固定面積 $ab = k$ 求周長 $a+b$ 最小值，同一條不等式反讀：

$$ a + b \ge 2\sqrt{ab} = 2\sqrt{k}, $$

最小值在 $a = b = \sqrt{k}$ 達成。一條不等式，兩個對偶的最佳化問題，這就是均值不等式在工程與經濟學中無所不在的原因。

柯西–施瓦茨：不只是代數恆等式

柯西–施瓦茨不等式（Cauchy–Schwarz inequality）的代數形式是：對任意實數 $a_1, \dots, a_n$ 與 $b_1, \dots, b_n$，

$$ \left( \sum_{i=1}^{n} a_i b_i \right)^{\!2} \le \left( \sum_{i=1}^{n} a_i^2 \right) \left( \sum_{i=1}^{n} b_i^2 \right). $$

入門篇可能教過你用判別式證它（把 $\sum (a_i t + b_i)^2 \ge 0$ 看成 $t$ 的二次式），但那只是技巧。真正的洞見是幾何的：把 $\mathbf{a} = (a_1, \dots, a_n)$ 與 $\mathbf{b} = (b_1, \dots, b_n)$ 看成 $n$ 維向量，則不等式等價於

$$ |\langle \mathbf{a}, \mathbf{b} \rangle| \le \|\mathbf{a}\| \, \|\mathbf{b}\|, $$

也就是 $|\cos\theta| \le 1$。內積等於兩向量長度乘上夾角餘弦——餘弦的絕對值不超過 $1$，柯西–施瓦茨就只是這個事實的代數翻譯。等號成立當且僅當兩向量平行（$\theta = 0$ 或 $\pi$），即存在常數 $\lambda$ 使 $b_i = \lambda a_i$。

這個幾何視角立刻把不等式從「有限和」推廣到無窮維。在內積空間（inner product space）裡，只要有內積 $\langle \cdot, \cdot \rangle$ 與其誘導範數 $\|x\| = \sqrt{\langle x, x\rangle}$，柯西–施瓦茨自動成立。它是希爾伯特空間（Hilbert space）理論的基石，也是機率論中相關係數恆介於 $-1$ 與 $1$ 之間的根本原因——因為共變異數其實就是隨機變數的內積。

動手試試

證明：對正實數 $x_1, \dots, x_n$，

$$ \left( \sum_{i=1}^n x_i \right) \left( \sum_{i=1}^n \frac{1}{x_i} \right) \ge n^2. $$

取 $a_i = \sqrt{x_i}$、$b_i = 1/\sqrt{x_i}$，則 $a_i b_i = 1$。代入柯西–施瓦茨：

$$ \left( \sum_{i=1}^n 1 \right)^{\!2} \le \left( \sum_{i=1}^n x_i \right)\left( \sum_{i=1}^n \frac{1}{x_i} \right), $$

左邊正是 $n^2$。等號成立當所有 $x_i$ 相等。注意這同時等價於 $A \ge H$（兩邊除以 $n^2$ 重排即得），可見柯西–施瓦茨與均值不等式彼此交織，並非各自獨立。

凸性：所有不等式背後的統一語言

到目前為止我們看了幾條漂亮的不等式，但它們有沒有共同的源頭？答案是凸性（convexity）。

一個函數 $f$ 在區間 $I$ 上稱為凸函數（convex function），如果對任意 $x, y \in I$ 與 $\lambda \in [0, 1]$，

$$ f(\lambda x + (1-\lambda) y) \le \lambda f(x) + (1-\lambda) f(y). $$

幾何意義很直接：連接曲線上任兩點的弦，永遠不在曲線下方。若 $f$ 二階可微，凸性等價於 $f''(x) \ge 0$（曲線「向上彎」）。

凸性之所以是統一語言，是因為 Jensen 不等式（Jensen's inequality）：若 $f$ 為凸函數，$w_i \ge 0$ 且 $\sum w_i = 1$，則

$$ f\!\left( \sum_{i=1}^n w_i x_i \right) \le \sum_{i=1}^n w_i f(x_i). $$

這是凸性定義從兩點推廣到 $n$ 點（甚至連續分布）的版本。它的威力在於：幾乎所有經典不等式都是 Jensen 在特定 $f$ 上的特例。

舉例來說，取 $f(x) = -\ln x$（在 $x > 0$ 上 $f''(x) = 1/x^2 > 0$，故為凸），權重 $w_i = 1/n$，Jensen 給出

$$ -\ln\!\left( \frac{1}{n}\sum x_i \right) \le \frac{1}{n} \sum (-\ln x_i) = -\ln\!\left( \prod x_i \right)^{1/n}. $$

兩邊取負、再取指數（$\exp$ 為遞增函數），不等號方向保持：

$$ \frac{1}{n}\sum x_i \ge \left( \prod x_i \right)^{1/n}, $$

正是 AM–GM。換言之，AM–GM 只是「對數函數是凹的」這件事的一個推論。凸性是因，那些漂亮的不等式是果。

看一個例子：用凸性證明 Young 不等式

設 $p, q > 1$ 且 $\frac{1}{p} + \frac{1}{q} = 1$（稱為共軛指數，conjugate exponents）。Young 不等式說：對 $a, b \ge 0$，

$$ ab \le \frac{a^p}{p} + \frac{b^q}{q}. $$

證法：當 $a, b > 0$ 時，用 $\ln$ 是凹函數（$-\ln$ 凸）這件事。把指數權重 $\frac{1}{p} + \frac{1}{q} = 1$ 套進 Jensen（對 $-\ln$）：

$$ \ln\!\left( \frac{1}{p} a^p + \frac{1}{q} b^q \right) \ge \frac{1}{p} \ln(a^p) + \frac{1}{q} \ln(b^q) = \ln a + \ln b = \ln(ab). $$

由 $\ln$ 遞增，去掉對數即得 $ab \le \frac{a^p}{p} + \frac{b^q}{q}$。等號成立當 $a^p = b^q$。

Young 不等式看似不起眼，卻是 Hölder 不等式與 Minkowski 不等式的跳板——而後兩者正是 $L^p$ 空間理論的支柱。我們在下一節展開這條線索。

從 Young 到 Hölder：不等式如何撐起 $L^p$ 空間

Hölder 不等式（Hölder's inequality）是柯西–施瓦茨的推廣。對共軛指數 $p, q$（$\frac1p + \frac1q = 1$）與序列 $(a_i)$、$(b_i)$：

$$ \sum_{i=1}^n |a_i b_i| \le \left( \sum_{i=1}^n |a_i|^p \right)^{1/p} \left( \sum_{i=1}^n |b_i|^q \right)^{1/q}. $$

當 $p = q = 2$，這正好退化回柯西–施瓦茨。證明的關鍵步驟就是對每一項套 Young 不等式（先把序列正規化，使兩個範數都為 $1$），再求和。

Hölder 接著推出 Minkowski 不等式（三角不等式的 $L^p$ 版本）：

$$ \left( \sum_{i=1}^n |a_i + b_i|^p \right)^{1/p} \le \left( \sum_{i=1}^n |a_i|^p \right)^{1/p} + \left( \sum_{i=1}^n |b_i|^p \right)^{1/p}. $$

這條不等式保證了 $\|x\|_p = \left( \sum |x_i|^p \right)^{1/p}$ 確實滿足三角不等式，因此 $\|\cdot\|_p$ 真的是一個範數（norm），$L^p$ 空間才得以成為完備的賦範空間。整套現代分析學——傅立葉分析、偏微分方程的弱解理論、機率論的 $L^p$ 收斂——都建立在這條由 Young → Hölder → Minkowski 串起的不等式鏈上。

一個容易被忽略的細節：Minkowski 不等式在 $0 < p < 1$ 時方向會反轉。此時 $\|\cdot\|_p$ 不再是範數，三角不等式失效。這提醒我們，不等式的成立區間往往和函數的凸／凹切換點緊密綁定——$x^p$ 在 $p \ge 1$ 時凸、在 $0 < p < 1$ 時凹，方向的翻轉正源於此。

重點回顧

均值不等式是冪平均的取樣：$H \le G \le A$ 並非三條獨立事實，而是冪平均 $M_p$ 隨 $p$ 單調遞增（$p = -1, 0, 1$）的特例；等號全部成立當且僅當所有數相等。
柯西–施瓦茨的本質是幾何：它就是 $|\cos\theta| \le 1$，等號對應向量平行；這個觀點讓它無痛推廣到任意內積空間，並解釋了統計相關係數為何介於 $\pm 1$。
凸性與 Jensen 是統一語言：AM–GM、Young 等經典不等式都是 Jensen 在適當凸（凹）函數上的特例；二階可微時凸性等價於 $f'' \ge 0$。
Young → Hölder → Minkowski 是一條鏈：這條鏈撐起 $L^p$ 範數與整個泛函分析；注意 $0 < p < 1$ 時 Minkowski 方向反轉，根源是 $x^p$ 由凸轉凹。
不等式同時刻畫極值：等號成立的條件往往就是最佳化問題的解，這讓不等式成為微積分之外另一條求極值的路徑。

深入探討（研究所視角）

把上述材料推到研究所層次，有三條值得追蹤的線索。

第一，凸分析（convex analysis）與對偶性。 Young 不等式 $ab \le \frac{a^p}{p} + \frac{b^q}{q}$ 其實是 Legendre–Fenchel 變換（convex conjugate） 的一個實例。對凸函數 $f$，定義其共軛 $f^*(y) = \sup_x \{ \langle x, y \rangle - f(x) \}$，則一般化的 Young 不等式 $\langle x, y \rangle \le f(x) + f^*(y)$ 對任意 $x, y$ 成立，等號當 $y \in \partial f(x)$（次微分，subdifferential）。當 $f(x) = \frac{|x|^p}{p}$ 時，$f^*(y) = \frac{|y|^q}{q}$ 恰為共軛指數對。這套對偶語言是現代最佳化（凸優化、對偶間隙、KKT 條件）與經濟學（效用與成本的對偶）的核心框架。

第二，機率與測度論的視角。 Jensen 不等式的完整陳述是針對隨機變數的：若 $\varphi$ 為凸函數、$X$ 為可積隨機變數，則 $\varphi(\mathbb{E}[X]) \le \mathbb{E}[\varphi(X)]$。由此一行可導出 Markov 不等式、Chebyshev 不等式，乃至資訊論中的 Gibbs 不等式（相對熵 $D_{\mathrm{KL}}(p \| q) \ge 0$，等號當兩分布相同）。後者保證了 KL 散度（Kullback–Leibler divergence）作為「分布間距離」的合法性，是變分推論（variational inference）與機器學習中 ELBO 下界的理論依據。換句話說，今天訓練生成模型時用的 evidence lower bound，骨子裡就是 Jensen 不等式。

第三，集中不等式（concentration inequalities）與高維幾何。 從 Chebyshev 出發，沿著 Chernoff bound、Hoeffding、Bernstein 一路推進，可得到隨機變數「集中於期望值附近」的指數型上界。這些工具是統計學習理論（PAC learning、泛化界）與隨機演算法分析的命脈。它們的證明核心通常是：對指數矩 $\mathbb{E}[e^{\lambda X}]$（矩生成函數）套用凸性與 Jensen，再用 Markov 不等式把尾機率轉成矩的估計。一條看似初等的「比大小」，最終決定了一個機器學習模型需要多少樣本才能可靠泛化。

值得一提的是一個尚在前沿的方向：凸幾何中的 Brascamp–Lieb 不等式與最佳常數問題。許多經典不等式（含 Hölder、Young 的卷積版本）都可納入 Brascamp–Lieb 的統一框架，而求其最佳常數與等號條件的刻畫，至今仍與資訊論、加性組合學（additive combinatorics）有深刻互動。當你下次寫下 $A \ge G$ 時，不妨記得：這條中學就見過的不等式，其推廣形式仍是當代數學活躍的研究對象。

← 上一篇

不等式：大小關係的代數與幾何

--

5

32.3%

140.05

82.02%

62,201

AI 回覆桌面通知

聊天訊息通知

聲音通知

更多設定