不等式:大小關係的代數與幾何
從數線上的「比力氣」到凸性、集中不等式與最佳化——理解不等式如何成為整個量化科學的通用語言
兩條繩子綁一頭牛,誰先繃斷?
想像你在拔河,兩隊人馬各執一端。繩子最終往哪邊移動,取決於哪一隊「力氣比較大」。數學裡也有許多這樣的「比力氣」問題:兩個量擺在一起,我們想知道誰大、誰小、相差多少,以及這種大小關係在什麼條件下會翻轉。
這正是不等式(inequality)的核心。等式 $a = b$ 告訴我們兩個量「剛好一樣」,而不等式 $a < b$、$a \le b$、$a > b$、$a \ge b$ 描述的是更普遍、也更貼近真實世界的情況——畢竟在生活裡,「剛剛好相等」反而是稀有的巧合,「誰多誰少」才是常態。
從「一杯飲料的成本不能超過售價」到「橋樑承受的應力必須小於材料的極限」,不等式是工程、經濟、統計乃至整個分析學(analysis)的語言。接下來我們從最基本的數線直覺出發,一路走到能讓人眼睛一亮的均值不等式(AM-GM inequality)。
數線上的大小:不等式的幾何意義

把實數放到一條數線(number line)上,大小關係立刻有了幾何意義:$a < b$ 表示 $a$ 在 $b$ 的左邊。這個圖像非常有用,因為它把抽象的符號變成可以「看見」的位置。
不等式 $x > 3$ 的解,不是單一一個數,而是數線上 $3$ 右側的一整段——我們稱之為一個區間(interval),記為 $(3, +\infty)$。圓括號表示「不包含端點」;若是 $x \ge 3$,則寫成 $[3, +\infty)$,方括號表示「包含 $3$」。這個「解是一整片區域」的特性,正是不等式和方程式最大的不同。
兩個不等式聯立時,幾何上就是兩段區間的交集。例如:
$$-2 \le x < 5$$
代表 $x$ 同時滿足 $x \ge -2$ 與 $x < 5$,在數線上就是從 $-2$(含)到 $5$(不含)的一段,即區間 $[-2, 5)$。
運算規則:哪些動作會讓不等號翻面?
解不等式時,我們可以對兩邊做運算,但有一條致命的陷阱:不是所有運算都「保持」不等號方向。
加減任何數,方向不變:
$$a < b \implies a + c < b + c$$
乘以正數,方向不變;但乘以負數,方向必須翻轉:
$$a < b,\ c > 0 \implies ac < bc$$ $$a < b,\ c < 0 \implies ac > bc$$
這是初學者最常踩的雷。例如解 $-2x < 6$,兩邊同除以 $-2$ 時,不等號要翻成 $x > -3$,而不是 $x < -3$。背後的直覺是:乘以負數相當於把整條數線「左右鏡射」,原本在左邊的點翻到了右邊,大小關係自然反轉。
倒數也有類似的微妙之處。當 $a, b$ 同號時:
$$0 < a < b \implies \frac{1}{a} > \frac{1}{b}$$
例如 $2 < 5$,但 $\frac{1}{2} > \frac{1}{5}$。若 $a, b$ 異號,則需逐情況討論,不能盲目套用。
動手試試:解一個分式不等式
來解 $\dfrac{x-1}{x+2} \ge 0$。
很多人第一反應是「兩邊乘以 $x+2$」,但這正是大忌——因為我們不知道 $x+2$ 是正是負,貿然乘下去無法決定要不要翻轉不等號。正確的做法是分析分子與分母的正負號。
分式 $\ge 0$,代表分子與分母同號(或分子為 $0$)。關鍵點是讓分子或分母為零的位置:$x = 1$(分子為 $0$)與 $x = -2$(分母為 $0$,此處未定義)。這兩點把數線切成三段,逐段檢驗符號:
| 區間 | $x - 1$ | $x + 2$ | 商的符號 |
|---|---|---|---|
| $x < -2$ | $-$ | $-$ | $+$ |
| $-2 < x < 1$ | $-$ | $+$ | $-$ |
| $x > 1$ | $+$ | $+$ | $+$ |
我們要的是商 $\ge 0$,所以取 $+$ 號的兩段。注意 $x = 1$ 使分式為 $0$,符合 $\ge$,要納入;但 $x = -2$ 讓分母為零、分式無定義,必須排除。最終解為:
$$x < -2 \quad \text{或} \quad x \ge 1, \qquad \text{即 } (-\infty, -2) \cup [1, +\infty)$$
這種「找臨界點、分段檢驗符號」的方法(sign analysis),對任何多項式或分式不等式都適用,遠比硬乘來得安全。
絕對值不等式:距離的語言
絕對值 $|x|$ 的本質是「$x$ 到原點的距離」。因此 $|x| < 3$ 讀作「到原點的距離小於 $3$」,幾何上就是夾在 $-3$ 與 $3$ 之間:
$$|x| < 3 \iff -3 < x < 3$$
反過來,$|x| > 3$ 是「距離大於 $3$」,對應數線兩端往外散開的兩段:
$$|x| > 3 \iff x < -3 \ \text{或}\ x > 3$$
更一般地,$|x - a|$ 表示 $x$ 到點 $a$ 的距離。所以 $|x - 5| \le 2$ 就是「$x$ 到 $5$ 的距離不超過 $2$」,即 $3 \le x \le 7$。把絕對值翻譯成「距離」,往往比死記公式更不容易出錯。
這裡也藏著分析學中極重要的三角不等式(triangle inequality):
$$|a + b| \le |a| + |b|$$
它說的是「兩段位移合起來的長度,不會超過兩段各自長度之和」——就像走路時,直線抄捷徑永遠不會比繞路更遠。這條看似樸素的不等式,是日後定義「收斂」「連續」「距離空間」的基石。
二次不等式:拋物線的高低
考慮 $x^2 - x - 6 > 0$。先因式分解:
$$x^2 - x - 6 = (x - 3)(x + 2)$$
對應的拋物線 $y = (x-3)(x+2)$ 開口向上,與 $x$ 軸交於 $x = -2$ 與 $x = 3$。所謂「$> 0$」就是問拋物線在哪裡跑到 $x$ 軸上方。開口向上的拋物線,在兩根之外為正、兩根之間為負,所以:
$$x^2 - x - 6 > 0 \iff x < -2 \ \text{或}\ x > 3$$
若改問 $x^2 - x - 6 < 0$,答案就是兩根之間:$-2 < x < 3$。把二次不等式和拋物線圖形綁在一起,是最直觀、最不易出錯的解法。
重點回顧
- 不等式的解是一段區間,而非單一數值;幾何上對應數線上的一片區域,聯立則取交集。
- 乘除負數要翻轉不等號——這是最常見的錯誤來源;其幾何直覺是「鏡射數線」。
- 分式與多項式不等式用「臨界點分段檢驗符號」最安全,切忌盲目把分母乘過去。
- 絕對值不等式翻譯成「距離」:$|x-a|<r$ 即距離小於 $r$,自然得到夾擠區間。
- 二次不等式看拋物線高低:開口向上時,兩根之外為正、兩根之間為負。
深入探討(研究所視角)
不等式在大學數學裡只是工具,但到了研究所,它本身就是一門深刻的學問。以下幾條主線值得一探。
均值不等式與凸性(convexity)。 著名的算術—幾何平均不等式(AM-GM)指出,對非負實數 $a_1, \dots, a_n$:
$$\frac{a_1 + a_2 + \cdots + a_n}{n} \ge \sqrt[n]{a_1 a_2 \cdots a_n}$$
等號當且僅當所有 $a_i$ 相等時成立。它的現代證明往往透過 Jensen 不等式(Jensen's inequality):若 $\varphi$ 為凸函數(convex function),則
$$\varphi\!\left(\frac{\sum a_i}{n}\right) \le \frac{\sum \varphi(a_i)}{n}$$
取 $\varphi(x) = -\ln x$(它是凸的,因為 $\varphi''(x) = 1/x^2 > 0$),代入即推出 AM-GM。這揭示了一個深刻觀點:大量初等不等式,本質上都是某個函數凸性的化身。凸性可由二階導數判定——$f''(x) \ge 0$ 在整個區間上成立,函數即為凸,其圖形「下凹托住」每一條割線。
積分形式與柯西—施瓦茲(Cauchy–Schwarz)。 不等式不只活在有限個數之間,也活在函數空間裡。柯西—施瓦茲不等式的積分版本為:
$$\left( \int_a^b f(x)\,g(x)\,dx \right)^2 \le \left( \int_a^b f(x)^2\,dx \right)\left( \int_a^b g(x)^2\,dx \right)$$
它是有限維向量內積 $|\langle u, v\rangle| \le \|u\|\,\|v\|$ 的無窮維推廣,也是希爾伯特空間(Hilbert space)幾何的出發點。在機器學習裡,它支撐了核方法(kernel methods)的理論基礎;在統計裡,它導出相關係數 $|\rho| \le 1$ 這一基本事實。
集中不等式(concentration inequalities)與機率。 現代資料科學最倚重的不等式之一是馬可夫不等式(Markov's inequality):對非負隨機變數 $X$ 與任意 $t > 0$,
$$P(X \ge t) \le \frac{\mathbb{E}[X]}{t}$$
由它可推出 柴比雪夫不等式(Chebyshev's inequality),進而是大數法則(law of large numbers)的骨架。再往前走,Hoeffding 不等式、Chernoff bound 等「集中不等式」告訴我們:大量獨立隨機變數的平均,會以指數速度集中在期望值附近。這正是為什麼「樣本數夠大,民調就準」有嚴格的數學保證。
最佳化與對偶(duality)。 在線性規劃(linear programming)與凸最佳化中,一整組不等式 $Ax \le b$ 定義出一個可行域(feasible region)——一個高維的多面體。求最大值就是在這片由不等式圍出的區域中尋找頂點,而 KKT 條件(Karush–Kuhn–Tucker conditions)則用一組不等式刻畫了最佳解的特徵。當代深度學習的訓練、投資組合的配置、物流路徑的規劃,本質上都是在「一堆不等式約束下求極值」。
跨領域連結。 從資訊理論的熵不等式(entropy inequalities),到物理學中刻畫不可逆過程的熱力學第二定律(以 $\Delta S \ge 0$ 的形式呈現),再到經濟學裡描述偏好的效用不等式——「大小關係」是橫貫所有量化科學的通用語。掌握不等式,不只是學會解一道題,更是學會用「比較」的眼光去丈量這個並非樣樣相等的世界。
當你下次再看到一個 $\le$ 符號時,不妨多想一層:它背後是不是藏著某個凸函數、某段距離、或某個機率事件的集中現象?那層思考,正是從「會算」邁向「理解」的分水嶺。