怪物與對局:ε-δ、一致連續與處處不可微的連續函數
從魏爾斯特拉斯的「數學怪物」出發,進入嚴謹分析的核心——用 ε-δ 真正證明極限、辨析連續與一致連續的量詞政變,並理解為何處處連續卻處處不可微在邏輯上完全合法。
為什麼「處處連續卻處處不可微」的函數,曾讓整個數學界坐立難安?
讀過入門篇後,你已經知道極限是「無限逼近」、連續是「畫得出來不用提筆」。這些幾何直覺在十九世紀以前一直是數學的根基。然而 1872 年,魏爾斯特拉斯(Karl Weierstrass)在柏林科學院公布了一個函數:它在每一點都連續,卻在每一點都不可微分——也就是說,它「畫得出來」,卻在任何一點都找不到切線。
$$W(x) = \sum_{n=0}^{\infty} a^n \cos(b^n \pi x), \quad 0 < a < 1,\ ab > 1 + \tfrac{3}{2}\pi$$
這個函數震撼了當時的數學界。龐加萊(Henri Poincaré)後來稱這類對象為「怪物」(monsters),埃爾米特(Charles Hermite)甚至寫信說他「帶著恐懼與厭惡,從這個沒有導數的連續函數的可悲瘟疫中轉身離去」。為什麼一個看似純粹技術性的反例,會引發如此強烈的情緒?因為它徹底擊碎了「連續就應該大致光滑」的幾何直覺,逼迫數學家承認:直覺不可靠,唯有 $\varepsilon$-$\delta$ 的嚴格定義才是判準。
這篇進階文章不再重複「逼近」的直覺,而是帶你進入嚴謹分析(rigorous analysis)的核心:我們將用 $\varepsilon$-$\delta$ 語言真正地證明極限、區分「連續」與「一致連續」(uniform continuity)的微妙差別,並理解為什麼魏爾斯特拉斯函數在邏輯上完全合法。

$\varepsilon$-$\delta$:把「逼近」翻譯成不等式
入門篇說「當 $x$ 趨近 $a$,$f(x)$ 趨近 $L$」。這句話有個致命的模糊處:「趨近」到底有多近?柯西(Cauchy)與魏爾斯特拉斯給出的答案,是把動態的「趨近」轉化為靜態的「不等式挑戰」。
定義(極限的 $\varepsilon$-$\delta$ 表述):稱 $\displaystyle\lim_{x \to a} f(x) = L$,若對任意 $\varepsilon > 0$,都存在 $\delta > 0$,使得只要 $0 < |x - a| < \delta$,就有 $|f(x) - L| < \varepsilon$。
請仔細體會這個邏輯結構。它是一場對局:
- 對手先提出一個容許誤差 $\varepsilon$(不論多小);
- 你必須找到一個鄰域半徑 $\delta$,保證在這個半徑內所有的 $x$(除了 $a$ 本身),其函數值都落在 $L$ 的 $\varepsilon$ 誤差帶之內。
關鍵在於量詞的順序:$\forall \varepsilon\, \exists \delta$。$\delta$ 是「被 $\varepsilon$ 挑出來的」,可以(而且通常會)依賴 $\varepsilon$。這個順序若顛倒,意義就全變了——這正是稍後「一致連續」要動手腳的地方。
看一個例子:嚴格證明 $\lim_{x\to 3}(2x+1)=7$
直覺上答案顯然是 $7$,但「證明」的意思是:給定任意 $\varepsilon$,明確地construct出 $\delta$。
我們先做草稿分析(從結論倒推)。我們希望 $|f(x) - 7| < \varepsilon$,即
$$|(2x+1) - 7| = |2x - 6| = 2|x - 3| < \varepsilon \quad\Longleftrightarrow\quad |x-3| < \frac{\varepsilon}{2}.$$
這告訴我們:取 $\delta = \dfrac{\varepsilon}{2}$ 就夠了。接著寫正式證明(順推):
給定 $\varepsilon > 0$,取 $\delta = \dfrac{\varepsilon}{2}$。則只要 $0 < |x - 3| < \delta$,便有 $$|(2x+1) - 7| = 2|x-3| < 2\delta = 2 \cdot \frac{\varepsilon}{2} = \varepsilon.$$ 故依定義 $\displaystyle\lim_{x\to 3}(2x+1) = 7$。$\blacksquare$
注意這裡的方法論:先「草稿倒推」找出 $\delta$ 該長什麼樣,再「正式順推」呈現。線性函數很簡單,因為 $\delta$ 與 $\varepsilon$ 成正比。
動手試試:當函數是二次的,$\delta$ 不再線性
試證 $\displaystyle\lim_{x \to 2} x^2 = 4$。倒推時我們要控制
$$|x^2 - 4| = |x-2|\,|x+2|.$$
麻煩在於 $|x+2|$ 也會隨 $x$ 變動,無法直接寫成 $|x-2|$ 的常數倍。標準技巧是先預設一個粗略界限:規定 $\delta \le 1$,於是 $|x-2| < 1 \Rightarrow 1 < x < 3 \Rightarrow |x+2| < 5$。因此
$$|x^2 - 4| = |x-2|\,|x+2| < 5|x-2|.$$
要讓它小於 $\varepsilon$,只需 $|x-2| < \dfrac{\varepsilon}{5}$。所以最終取
$$\delta = \min\left\{1,\ \frac{\varepsilon}{5}\right\}.$$
這個 $\min$ 是整個 $\varepsilon$-$\delta$ 技術的精髓:一個 $\delta$ 同時要滿足「把局部因子框住」和「逼近目標誤差」兩個要求,取最小者即可兼顧。你可以自行驗證:當 $\varepsilon$ 很大時 $\delta = 1$ 起作用,當 $\varepsilon$ 很小時 $\delta = \varepsilon/5$ 起作用。
連續與一致連續:量詞順序的一場政變
入門篇把連續定義為 $\lim_{x\to a} f(x) = f(a)$。展開成 $\varepsilon$-$\delta$,在 $a$ 點連續意味著:
$$\forall \varepsilon > 0\ \exists \delta > 0\ \forall x:\ |x - a| < \delta \Rightarrow |f(x) - f(a)| < \varepsilon.$$
這裡 $\delta$ 可以依賴 $\varepsilon$ 以及 $a$。換句話說,函數在不同點可能需要不同精細度的 $\delta$。一致連續(uniform continuity)則要求 $\delta$ 對所有點「一視同仁」:
定義(一致連續):稱 $f$ 在集合 $D$ 上一致連續,若 $$\forall \varepsilon > 0\ \exists \delta > 0\ \forall x, y \in D:\ |x - y| < \delta \Rightarrow |f(x) - f(y)| < \varepsilon.$$
對照兩者,差別只在量詞的位置:一般連續是 $\forall a\, \forall \varepsilon\, \exists \delta$($\delta$ 在 $a$ 之內被選,可依賴 $a$);一致連續是 $\forall \varepsilon\, \exists \delta\, \forall x,y$($\delta$ 必須在看到任何具體點之前就選定)。把 $\exists \delta$ 往前提,就剝奪了它依賴位置的權利。這是分析學裡「量詞順序決定一切」最經典的範例。
看一個例子:$f(x)=x^2$ 在 $\mathbb{R}$ 上連續但不一致連續
$x^2$ 處處連續,這沒問題。但它在整條實數線上不一致連續。直覺是:拋物線愈往外愈陡,同樣的水平位移 $|x-y|$,在遠處造成的垂直落差愈大,於是沒有任何「通用的 $\delta$」能對所有區段都奏效。
嚴格反證:取定 $\varepsilon = 1$。假設存在通用的 $\delta > 0$。考慮 $x = \frac{1}{\delta}$ 與 $y = \frac{1}{\delta} + \frac{\delta}{2}$,則 $|x - y| = \frac{\delta}{2} < \delta$,但
$$|x^2 - y^2| = |x-y|\,|x+y| = \frac{\delta}{2}\left(\frac{2}{\delta} + \frac{\delta}{2}\right) = 1 + \frac{\delta^2}{4} > 1 = \varepsilon.$$
矛盾。故無論 $\delta$ 多小,總能在足夠遠處找到一對點戳破它。$\blacksquare$
那麼救贖在哪裡?海涅-康托爾定理(Heine–Cantor theorem):定義在緊緻(compact,在 $\mathbb{R}$ 中即閉且有界)集合上的連續函數必定一致連續。所以 $x^2$ 在 $[0, 10]$ 上是一致連續的——把定義域「關起來、框起來」,陡峭程度就有了上限。這也是為什麼黎曼可積性(Riemann integrability)、許多收斂定理都偏愛閉區間:緊緻性把「逐點」的好性質升級成「整體」的好性質。
序列判準與函數極限的等價橋樑
$\varepsilon$-$\delta$ 並非唯一的語言。海涅判準(Heine's criterion)告訴我們,函數極限可以完全用序列極限來刻畫:
$\displaystyle\lim_{x\to a} f(x) = L$ 當且僅當:對每一個收斂到 $a$ 的序列 $\{x_n\}$(且 $x_n \ne a$),都有 $f(x_n) \to L$。
這個等價性極其實用,尤其在否證極限存在時。要證明某極限不存在,你不必跟 $\varepsilon$-$\delta$ 纏鬥,只需找兩條趨近 $a$ 卻給出不同函數值極限的路徑。
動手試試:證明 $\lim_{x\to 0}\sin\frac{1}{x}$ 不存在
取兩條序列趨近 $0$:
$$x_n = \frac{1}{n\pi} \to 0, \qquad y_n = \frac{1}{2n\pi + \frac{\pi}{2}} \to 0.$$
則 $\sin\frac{1}{x_n} = \sin(n\pi) = 0$ 恆為 $0$,而 $\sin\frac{1}{y_n} = \sin(2n\pi + \frac{\pi}{2}) = 1$ 恆為 $1$。兩條序列都收斂到 $0$,函數值卻分別趨於 $0$ 與 $1$。由海涅判準,極限不存在。$\blacksquare$
順帶一提,函數 $g(x) = x\sin\frac{1}{x}$(並令 $g(0)=0$)就連續——因為 $|g(x)| \le |x| \to 0$,前面的 $x$ 把振盪壓住了。再進一步,$x^2 \sin\frac{1}{x}$ 在 $0$ 處甚至可微,但其導數在 $0$ 處不連續。這串例子是理解「連續 $\subsetneq$ 可微」「可微 $\subsetneq$ 連續可微」層級結構的鑰匙。
回到怪物:魏爾斯特拉斯函數為何合法
現在我們有了工具,可以理解開頭那個「怪物」。$W(x) = \sum a^n \cos(b^n \pi x)$ 為什麼連續?因為每一項 $a^n\cos(b^n\pi x)$ 連續,且 $|a^n \cos(b^n\pi x)| \le a^n$,而 $\sum a^n$($0<a<1$)收斂。由魏爾斯特拉斯 M 判準(Weierstrass M-test),這個函數項級數一致收斂,而一致收斂保住了連續性——連續函數的一致收斂極限仍連續。
但它為何處處不可微?關鍵在於 $ab > 1 + \frac{3}{2}\pi$ 這個條件。差商
$$\frac{W(x+h) - W(x)}{h}$$
中,高頻項 $\cos(b^n\pi x)$ 的振盪頻率 $b^n$ 增長得比振幅衰減 $a^n$ 更快(因 $ab>1$)。每當你試圖在某點取極限,總有一個尺度的振盪「跳出來」搗亂,使差商無界振盪、不收斂。連續性靠的是振幅可加和($\sum a^n<\infty$),不可微性靠的是斜率不可加和($\sum (ab)^n = \infty$)。這兩件事可以同時成立,正是因為微分比連續「更挑剔」——它要求的不只是值的逼近,而是斜率的逼近。
重點回顧
- $\varepsilon$-$\delta$ 是一場對局:對手給 $\varepsilon$,你回應 $\delta$;量詞順序 $\forall\varepsilon\,\exists\delta$ 表明 $\delta$ 可依賴 $\varepsilon$。證明時「倒推找 $\delta$、順推呈現」,非線性情形常用 $\delta = \min\{1, \varepsilon/M\}$ 兼顧局部界限與目標誤差。
- 連續 vs 一致連續的差別只在量詞順序:把 $\exists\delta$ 提到 $\forall x$ 之前,就剝奪了 $\delta$ 依賴位置的權利。$x^2$ 在 $\mathbb{R}$ 上連續卻不一致連續。
- 海涅-康托爾定理:緊緻集上的連續函數必一致連續——緊緻性把逐點性質升級為整體性質。
- 海涅判準讓你用序列否證極限:找兩條趨近同點卻給出不同極限值的路徑即可(如 $\sin\frac{1}{x}$ 在 $0$)。
- 連續、可微、連續可微是嚴格遞減的層級:魏爾斯特拉斯函數證明「連續」遠不蘊含「可微」,其合法性建立在「振幅可加和但斜率不可加和」之上。
深入探討(研究所視角)
跨出單變數,這些概念在研究所層級會以更抽象、更具威力的面貌重現。
度量空間與拓樸的視角。$\varepsilon$-$\delta$ 中的 $|x-y|$ 本質上是距離。把它抽換成一般度量 $d(x,y)$,連續性就推廣到任意度量空間,再進一步以「開集的原像為開集」定義拓樸連續性——這時 $\varepsilon$、$\delta$ 完全消失,連續性成為純粹的集合論述。海涅-康托爾定理在此推廣為:緊緻度量空間到任意度量空間的連續映射必一致連續。緊緻性(每個開覆蓋有有限子覆蓋)正是讓「局部選的 $\delta$ 取得有限最小值」成為可能的結構性保證。
連續性模數與 Lipschitz / Hölder 階層。一致連續可量化為連續性模數(modulus of continuity) $\omega(\delta) = \sup_{|x-y|\le\delta}|f(x)-f(y)|$,一致連續等價於 $\omega(\delta)\to 0$。當 $\omega(\delta) \le C\delta$ 時得到 Lipschitz 連續,當 $\omega(\delta)\le C\delta^\alpha$($0<\alpha\le 1$)時得到 Hölder 連續。耐人尋味的是,魏爾斯特拉斯函數恰好是 Hölder 連續的(指數 $\alpha = -\ln a/\ln b$),卻處處不可微——它落在「比一致連續好、但比 Lipschitz 差」的精確縫隙中,這也連結到它的圖形具有非整數的 Hausdorff 維度(碎形)。
測度論的驚人結局。怪物並非例外,而是常態。巴拿赫(Banach)以貝爾綱定理(Baire category theorem)證明:在連續函數空間 $C[0,1]$(配上上確界範數)中,「至少在某點可微」的函數構成一個第一綱(meagre)集合。也就是說,從拓樸的觀點,「處處不可微」的連續函數才是「典型的」、「幾乎全部的」——可微反而是稀有的奢侈品。十九世紀數學家的恐懼,最終被證明是面對自身領域真實面貌的本能反應。
最後的延伸。若你想繼續探索,可循三條線索:(一)將極限推廣到網(net)與濾子(filter),處理非可數型逼近;(二)研究半連續性(semicontinuity),它在變分法與最優化中保證極小元存在;(三)進入非標準分析(non-standard analysis),用無窮小量 $dx$ 把萊布尼茲的原始直覺嚴格化,繞過 $\varepsilon$-$\delta$ 而得到等價的理論。這三條路各自通往現代分析的不同山頭,而它們的共同起點,都是你此刻已經掌握的那場 $\varepsilon$-$\delta$ 對局。