不等式(進階):從均值不等式到凸性與 L^p 空間
當均值不等式、柯西–施瓦茨與 Jensen 不等式被凸性統一,一條「比大小」如何撐起整個現代分析學
當「平均」不只一種:一條不等式如何串起整個分析學
入門篇我們處理過「比大小」這件事——移項、變號、代入數線。但真正讓不等式從一項代數技巧躍升為現代數學核心工具的,是這個看似樸素的觀察:對同一組正數,算術平均、幾何平均、調和平均之間有固定的大小順序,而且這個順序永遠不會改變。
考慮一個具體情境。你要在固定周長 $L$ 的條件下圍出最大的矩形面積。設兩邊為 $a, b$,則 $a+b = L/2$ 固定,要最大化 $ab$。如果你已學過微積分,會用拉格朗日乘子或求導;但其實一行不等式就能解決,而且還告訴你等號何時成立——也就是最佳解的長相。這正是進階不等式的威力:它不只回答「誰大誰小」,還同時刻畫了「極值在哪裡達成」。
本篇我們把焦點放在三個入門篇沒細談的層次:均值不等式族(AM–GM–HM)的內在結構、柯西–施瓦茨(Cauchy–Schwarz)作為幾何投影的本質,以及把這一切統一起來的凸性(convexity)與 Jensen 不等式。最後我們會看到,這些「高中競賽工具」其實是泛函分析、機率論與最佳化理論的地基。

均值的階梯:AM–GM–HM 的結構
給定 $n$ 個正實數 $x_1, x_2, \dots, x_n$,定義三種平均:
$$ \text{算術平均 } A = \frac{x_1 + x_2 + \cdots + x_n}{n}, \quad \text{幾何平均 } G = \sqrt[n]{x_1 x_2 \cdots x_n}, $$
$$ \text{調和平均 } H = \frac{n}{\dfrac{1}{x_1} + \dfrac{1}{x_2} + \cdots + \dfrac{1}{x_n}}. $$
核心定理(均值不等式,AM–GM–HM inequality)是:
$$ A \ge G \ge H, $$
而且三個等號同時成立,當且僅當 $x_1 = x_2 = \cdots = x_n$。
這個鏈條不是巧合,而是同一個函數族的不同切片。事實上它們都屬於冪平均(power mean)家族:
$$ M_p = \left( \frac{1}{n} \sum_{i=1}^{n} x_i^{\,p} \right)^{1/p}. $$
當 $p = 1$ 得到算術平均 $A$;當 $p = -1$ 得到調和平均 $H$;而 $p \to 0$ 的極限(用對數展開可證)正是幾何平均 $G$。冪平均不等式(power mean inequality)說:$M_p$ 對 $p$ 單調遞增。於是
$$ M_{-1} \le M_0 \le M_1 \quad\Longleftrightarrow\quad H \le G \le A. $$
換句話說,AM–GM–HM 不是三條孤立的事實,而是一條連續曲線 $p \mapsto M_p$ 上的三個取樣點。理解這一點,你就不會再把它們當成需要分別背誦的公式。
看一個例子
回到開頭的矩形問題:$a + b = s$(固定),求 $ab$ 的最大值。對兩個數套 AM–GM:
$$ \frac{a+b}{2} \ge \sqrt{ab} \quad\Longrightarrow\quad \sqrt{ab} \le \frac{s}{2} \quad\Longrightarrow\quad ab \le \frac{s^2}{4}. $$
等號成立當且僅當 $a = b = s/2$。所以固定周長下,正方形面積最大——這個幾何直覺被一行不等式精確證明,連等號條件都給了你最佳解。
反過來,固定面積 $ab = k$ 求周長 $a+b$ 最小值,同一條不等式反讀:
$$ a + b \ge 2\sqrt{ab} = 2\sqrt{k}, $$
最小值在 $a = b = \sqrt{k}$ 達成。一條不等式,兩個對偶的最佳化問題,這就是均值不等式在工程與經濟學中無所不在的原因。
柯西–施瓦茨:不只是代數恆等式
柯西–施瓦茨不等式(Cauchy–Schwarz inequality)的代數形式是:對任意實數 $a_1, \dots, a_n$ 與 $b_1, \dots, b_n$,
$$ \left( \sum_{i=1}^{n} a_i b_i \right)^{\!2} \le \left( \sum_{i=1}^{n} a_i^2 \right) \left( \sum_{i=1}^{n} b_i^2 \right). $$
入門篇可能教過你用判別式證它(把 $\sum (a_i t + b_i)^2 \ge 0$ 看成 $t$ 的二次式),但那只是技巧。真正的洞見是幾何的:把 $\mathbf{a} = (a_1, \dots, a_n)$ 與 $\mathbf{b} = (b_1, \dots, b_n)$ 看成 $n$ 維向量,則不等式等價於
$$ |\langle \mathbf{a}, \mathbf{b} \rangle| \le \|\mathbf{a}\| \, \|\mathbf{b}\|, $$
也就是 $|\cos\theta| \le 1$。內積等於兩向量長度乘上夾角餘弦——餘弦的絕對值不超過 $1$,柯西–施瓦茨就只是這個事實的代數翻譯。等號成立當且僅當兩向量平行($\theta = 0$ 或 $\pi$),即存在常數 $\lambda$ 使 $b_i = \lambda a_i$。
這個幾何視角立刻把不等式從「有限和」推廣到無窮維。在內積空間(inner product space)裡,只要有內積 $\langle \cdot, \cdot \rangle$ 與其誘導範數 $\|x\| = \sqrt{\langle x, x\rangle}$,柯西–施瓦茨自動成立。它是希爾伯特空間(Hilbert space)理論的基石,也是機率論中相關係數恆介於 $-1$ 與 $1$ 之間的根本原因——因為共變異數其實就是隨機變數的內積。
動手試試
證明:對正實數 $x_1, \dots, x_n$,
$$ \left( \sum_{i=1}^n x_i \right) \left( \sum_{i=1}^n \frac{1}{x_i} \right) \ge n^2. $$
取 $a_i = \sqrt{x_i}$、$b_i = 1/\sqrt{x_i}$,則 $a_i b_i = 1$。代入柯西–施瓦茨:
$$ \left( \sum_{i=1}^n 1 \right)^{\!2} \le \left( \sum_{i=1}^n x_i \right)\left( \sum_{i=1}^n \frac{1}{x_i} \right), $$
左邊正是 $n^2$。等號成立當所有 $x_i$ 相等。注意這同時等價於 $A \ge H$(兩邊除以 $n^2$ 重排即得),可見柯西–施瓦茨與均值不等式彼此交織,並非各自獨立。
凸性:所有不等式背後的統一語言
到目前為止我們看了幾條漂亮的不等式,但它們有沒有共同的源頭?答案是凸性(convexity)。
一個函數 $f$ 在區間 $I$ 上稱為凸函數(convex function),如果對任意 $x, y \in I$ 與 $\lambda \in [0, 1]$,
$$ f(\lambda x + (1-\lambda) y) \le \lambda f(x) + (1-\lambda) f(y). $$
幾何意義很直接:連接曲線上任兩點的弦,永遠不在曲線下方。若 $f$ 二階可微,凸性等價於 $f''(x) \ge 0$(曲線「向上彎」)。
凸性之所以是統一語言,是因為 Jensen 不等式(Jensen's inequality):若 $f$ 為凸函數,$w_i \ge 0$ 且 $\sum w_i = 1$,則
$$ f\!\left( \sum_{i=1}^n w_i x_i \right) \le \sum_{i=1}^n w_i f(x_i). $$
這是凸性定義從兩點推廣到 $n$ 點(甚至連續分布)的版本。它的威力在於:幾乎所有經典不等式都是 Jensen 在特定 $f$ 上的特例。
舉例來說,取 $f(x) = -\ln x$(在 $x > 0$ 上 $f''(x) = 1/x^2 > 0$,故為凸),權重 $w_i = 1/n$,Jensen 給出
$$ -\ln\!\left( \frac{1}{n}\sum x_i \right) \le \frac{1}{n} \sum (-\ln x_i) = -\ln\!\left( \prod x_i \right)^{1/n}. $$
兩邊取負、再取指數($\exp$ 為遞增函數),不等號方向保持:
$$ \frac{1}{n}\sum x_i \ge \left( \prod x_i \right)^{1/n}, $$
正是 AM–GM。換言之,AM–GM 只是「對數函數是凹的」這件事的一個推論。凸性是因,那些漂亮的不等式是果。
看一個例子:用凸性證明 Young 不等式
設 $p, q > 1$ 且 $\frac{1}{p} + \frac{1}{q} = 1$(稱為共軛指數,conjugate exponents)。Young 不等式說:對 $a, b \ge 0$,
$$ ab \le \frac{a^p}{p} + \frac{b^q}{q}. $$
證法:當 $a, b > 0$ 時,用 $\ln$ 是凹函數($-\ln$ 凸)這件事。把指數權重 $\frac{1}{p} + \frac{1}{q} = 1$ 套進 Jensen(對 $-\ln$):
$$ \ln\!\left( \frac{1}{p} a^p + \frac{1}{q} b^q \right) \ge \frac{1}{p} \ln(a^p) + \frac{1}{q} \ln(b^q) = \ln a + \ln b = \ln(ab). $$
由 $\ln$ 遞增,去掉對數即得 $ab \le \frac{a^p}{p} + \frac{b^q}{q}$。等號成立當 $a^p = b^q$。
Young 不等式看似不起眼,卻是 Hölder 不等式與 Minkowski 不等式的跳板——而後兩者正是 $L^p$ 空間理論的支柱。我們在下一節展開這條線索。
從 Young 到 Hölder:不等式如何撐起 $L^p$ 空間
Hölder 不等式(Hölder's inequality)是柯西–施瓦茨的推廣。對共軛指數 $p, q$($\frac1p + \frac1q = 1$)與序列 $(a_i)$、$(b_i)$:
$$ \sum_{i=1}^n |a_i b_i| \le \left( \sum_{i=1}^n |a_i|^p \right)^{1/p} \left( \sum_{i=1}^n |b_i|^q \right)^{1/q}. $$
當 $p = q = 2$,這正好退化回柯西–施瓦茨。證明的關鍵步驟就是對每一項套 Young 不等式(先把序列正規化,使兩個範數都為 $1$),再求和。
Hölder 接著推出 Minkowski 不等式(三角不等式的 $L^p$ 版本):
$$ \left( \sum_{i=1}^n |a_i + b_i|^p \right)^{1/p} \le \left( \sum_{i=1}^n |a_i|^p \right)^{1/p} + \left( \sum_{i=1}^n |b_i|^p \right)^{1/p}. $$
這條不等式保證了 $\|x\|_p = \left( \sum |x_i|^p \right)^{1/p}$ 確實滿足三角不等式,因此 $\|\cdot\|_p$ 真的是一個範數(norm),$L^p$ 空間才得以成為完備的賦範空間。整套現代分析學——傅立葉分析、偏微分方程的弱解理論、機率論的 $L^p$ 收斂——都建立在這條由 Young → Hölder → Minkowski 串起的不等式鏈上。
一個容易被忽略的細節:Minkowski 不等式在 $0 < p < 1$ 時方向會反轉。此時 $\|\cdot\|_p$ 不再是範數,三角不等式失效。這提醒我們,不等式的成立區間往往和函數的凸/凹切換點緊密綁定——$x^p$ 在 $p \ge 1$ 時凸、在 $0 < p < 1$ 時凹,方向的翻轉正源於此。
重點回顧
- 均值不等式是冪平均的取樣:$H \le G \le A$ 並非三條獨立事實,而是冪平均 $M_p$ 隨 $p$ 單調遞增($p = -1, 0, 1$)的特例;等號全部成立當且僅當所有數相等。
- 柯西–施瓦茨的本質是幾何:它就是 $|\cos\theta| \le 1$,等號對應向量平行;這個觀點讓它無痛推廣到任意內積空間,並解釋了統計相關係數為何介於 $\pm 1$。
- 凸性與 Jensen 是統一語言:AM–GM、Young 等經典不等式都是 Jensen 在適當凸(凹)函數上的特例;二階可微時凸性等價於 $f'' \ge 0$。
- Young → Hölder → Minkowski 是一條鏈:這條鏈撐起 $L^p$ 範數與整個泛函分析;注意 $0 < p < 1$ 時 Minkowski 方向反轉,根源是 $x^p$ 由凸轉凹。
- 不等式同時刻畫極值:等號成立的條件往往就是最佳化問題的解,這讓不等式成為微積分之外另一條求極值的路徑。
深入探討(研究所視角)
把上述材料推到研究所層次,有三條值得追蹤的線索。
第一,凸分析(convex analysis)與對偶性。 Young 不等式 $ab \le \frac{a^p}{p} + \frac{b^q}{q}$ 其實是 Legendre–Fenchel 變換(convex conjugate) 的一個實例。對凸函數 $f$,定義其共軛 $f^*(y) = \sup_x \{ \langle x, y \rangle - f(x) \}$,則一般化的 Young 不等式 $\langle x, y \rangle \le f(x) + f^*(y)$ 對任意 $x, y$ 成立,等號當 $y \in \partial f(x)$(次微分,subdifferential)。當 $f(x) = \frac{|x|^p}{p}$ 時,$f^*(y) = \frac{|y|^q}{q}$ 恰為共軛指數對。這套對偶語言是現代最佳化(凸優化、對偶間隙、KKT 條件)與經濟學(效用與成本的對偶)的核心框架。
第二,機率與測度論的視角。 Jensen 不等式的完整陳述是針對隨機變數的:若 $\varphi$ 為凸函數、$X$ 為可積隨機變數,則 $\varphi(\mathbb{E}[X]) \le \mathbb{E}[\varphi(X)]$。由此一行可導出 Markov 不等式、Chebyshev 不等式,乃至資訊論中的 Gibbs 不等式(相對熵 $D_{\mathrm{KL}}(p \| q) \ge 0$,等號當兩分布相同)。後者保證了 KL 散度(Kullback–Leibler divergence)作為「分布間距離」的合法性,是變分推論(variational inference)與機器學習中 ELBO 下界的理論依據。換句話說,今天訓練生成模型時用的 evidence lower bound,骨子裡就是 Jensen 不等式。
第三,集中不等式(concentration inequalities)與高維幾何。 從 Chebyshev 出發,沿著 Chernoff bound、Hoeffding、Bernstein 一路推進,可得到隨機變數「集中於期望值附近」的指數型上界。這些工具是統計學習理論(PAC learning、泛化界)與隨機演算法分析的命脈。它們的證明核心通常是:對指數矩 $\mathbb{E}[e^{\lambda X}]$(矩生成函數)套用凸性與 Jensen,再用 Markov 不等式把尾機率轉成矩的估計。一條看似初等的「比大小」,最終決定了一個機器學習模型需要多少樣本才能可靠泛化。
值得一提的是一個尚在前沿的方向:凸幾何中的 Brascamp–Lieb 不等式與最佳常數問題。許多經典不等式(含 Hölder、Young 的卷積版本)都可納入 Brascamp–Lieb 的統一框架,而求其最佳常數與等號條件的刻畫,至今仍與資訊論、加性組合學(additive combinatorics)有深刻互動。當你下次寫下 $A \ge G$ 時,不妨記得:這條中學就見過的不等式,其推廣形式仍是當代數學活躍的研究對象。