誤差藏在二階導數裡:均值定理、泰勒展開與導數的全域威力
線性近似只對了一半。本文從均值定理出發,揭開泰勒餘項如何精確控制誤差,再串起隱函數微分、反函數導數、羅必達法則與凹凸性,把導數從「一個斜率」升級為駕馭函數全域行為的工具。
線性近似只對了一半,那「另一半」藏在哪裡?
入門篇告訴你一件好用的事:在小範圍內,曲線幾乎等於它的切線,所以 $f(x+\Delta x)\approx f(x)+f'(x)\,\Delta x$。我們還用它估出 $\sqrt{4.1}\approx 2.025$,誤差小到萬分之一。但這裡藏著一個被刻意跳過的問題:那個「$\approx$」到底差了多少?誤差不是一個含糊的「很小」就能交代的——它有精確的數學形式,而且形式本身就告訴你「為什麼線性近似在這裡很準、在別處卻爛掉」。
更挑釁一點地問:如果一階導數給的是「最佳的直線」,那有沒有「最佳的拋物線」「最佳的三次曲線」?把這個念頭推到極限,就是泰勒展開(Taylor expansion)。而真正讓這一切站得住腳、把「逼近」從直覺升級為定理的,是一個外表樸素、威力驚人的結果——均值定理(Mean Value Theorem, MVT)。這篇進階篇就從這裡切入:我們不再把導數當成「一個斜率」,而是把它當成一套能控制函數全域行為的工具。
均值定理:把局部導數變成全域結論

導數定義在「一點」上,是純粹的局部資訊。但我們真正想知道的事情往往是全域的:函數在一整段區間上漲了多少?兩個函數差距會不會越拉越大?把局部導數翻譯成全域結論的橋樑,就是均值定理。
先看它的基石——羅爾定理(Rolle's theorem)。若 $f$ 在閉區間 $[a,b]$ 上連續、在開區間 $(a,b)$ 上可微,且 $f(a)=f(b)$,則必存在某點 $c\in(a,b)$ 使得
$$ f'(c)=0. $$
直覺非常清楚:一條光滑曲線從同一高度出發、回到同一高度,中間一定有個地方「水平」(不是最高點就是最低點,那裡斜率為零)。把這個「起點終點等高」的限制鬆開,就得到一般的均值定理:
$$ f'(c)=\frac{f(b)-f(a)}{b-a}. $$
讀法是:在區間中某一點,瞬間變化率恰好等於整段的平均變化率。開車從台北到新竹平均時速 $90$,那麼路上必定有某個瞬間你的儀表板正好指著 $90$——這就是 MVT 的白話版。
均值定理表面平淡,卻是整個微分學嚴格化的引擎。一個直接而深刻的推論:若在區間上恆有 $f'(x)=0$,則 $f$ 是常數。這看似廢話,但它是「微分的逆運算(積分)只差一個常數」的根本理由,也是微積分基本定理嚴格證明的關鍵零件。沒有 MVT,整個「導數能控制函數」的大廈就少了地基。
從一條直線到一整族曲線:泰勒定理
現在回到開頭的問題。線性近似只用到 $f(x_0)$ 和 $f'(x_0)$ 兩個數,它能匹配曲線在 $x_0$ 的「值」與「斜率」,但管不了「彎曲程度」。彎曲程度由二階導數 $f''$ 掌管。如果我們允許自己用更多階導數,就能造出越來越貼合的近似多項式:
$$ P_n(x)=\sum_{k=0}^{n}\frac{f^{(k)}(x_0)}{k!}\,(x-x_0)^k. $$
這個 $n$ 次多項式 $P_n$ 在 $x_0$ 處與 $f$ 共享前 $n$ 階導數——值一樣、斜率一樣、彎度一樣……一路匹配到第 $n$ 階。$n=1$ 時它就退化成入門篇的切線近似;$n=2$ 時多了一個 $\frac{f''(x_0)}{2}(x-x_0)^2$ 項,那就是「最佳的拋物線」。
但關鍵不在這個多項式長什麼樣,而在那個被入門篇含糊帶過的「誤差」。泰勒定理(Taylor's theorem with Lagrange remainder)給出精確答案:
$$ f(x)=P_n(x)+R_n(x),\qquad R_n(x)=\frac{f^{(n+1)}(\xi)}{(n+1)!}\,(x-x_0)^{n+1}, $$
其中 $\xi$ 是介於 $x_0$ 與 $x$ 之間的某個(未知但確實存在的)點。注意這個餘項的形式和泰勒多項式下一項長得幾乎一樣,只是把導數從 $x_0$ 換成中間點 $\xi$——而保證這個 $\xi$ 存在的,正是上一節的均值定理(餘項定理本質上是 MVT 的高階推廣,用 Cauchy 均值定理證明)。
這個餘項公式徹底解釋了入門篇的「為什麼很準」。線性近似($n=1$)的誤差是
$$ R_1(x)=\frac{f''(\xi)}{2}\,(x-x_0)^2. $$
誤差正比於 $(x-x_0)^2$——所以只要 $x$ 離 $x_0$ 夠近,誤差會以平方速度縮小;同時誤差正比於 $f''$,也就是「曲線越彎,直線近似越爛」。$\sqrt{4.1}$ 那題之所以準,是因為 $0.1$ 平方後只剩 $0.01$,而 $\sqrt{x}$ 在 $x=4$ 附近又相當平直($f''$ 很小)。線性近似的成敗,全寫在二階導數裡。
看一個例子:用泰勒定理「框住」誤差
我們重做 $\sqrt{4.1}$,但這次不只給估計值,還要證明誤差有多小。取 $f(x)=\sqrt{x}$,$x_0=4$,$x=4.1$。
一、二階導數:
$$ f'(x)=\frac{1}{2}x^{-1/2},\qquad f''(x)=-\frac{1}{4}x^{-3/2}. $$
線性近似仍是 $P_1(4.1)=2+\tfrac14(0.1)=2.025$。誤差為
$$ R_1=\frac{f''(\xi)}{2}(0.1)^2=\frac{1}{2}\left(-\frac{1}{4}\xi^{-3/2}\right)(0.01),\qquad \xi\in(4,\,4.1). $$
我們不知道 $\xi$ 的確切值,但知道它在 $(4,4.1)$ 裡,所以 $\xi^{-3/2}$ 最大不超過 $4^{-3/2}=\tfrac18$。於是
$$ |R_1|\le \frac{1}{2}\cdot\frac{1}{4}\cdot\frac{1}{8}\cdot 0.01=\frac{0.01}{64}\approx 1.56\times 10^{-4}. $$
這就是嚴格的誤差上界:我們保證 $\sqrt{4.1}$ 與 $2.025$ 的差不超過 $0.00016$。實際差約 $0.000195$?不,實際 $\sqrt{4.1}=2.024846\ldots$,差約 $1.5\times10^{-4}$,正好落在我們框住的界內。這就是泰勒定理比入門篇高明的地方——它不只給近似,還給保證。工程與數值分析裡,「估計值」沒有「誤差界」是不能用的,而誤差界正來自高階導數。
隱函數與反函數:當 $y$ 解不出來時
入門篇的所有函數都寫成 $y=f(x)$,可以直接套法則。但很多重要關係根本解不出 $y$。例如圓 $x^2+y^2=25$,或更兇狠的 $x^3+y^3=6xy$(笛卡兒葉形線)。這時 $y$ 是 $x$ 的隱函數,我們用隱函數微分(implicit differentiation):把 $y$ 當成 $x$ 的函數,對整條方程式兩邊微分,凡遇到 $y$ 就用連鎖律補上 $\frac{dy}{dx}$。
對 $x^2+y^2=25$ 兩邊微分:
$$ 2x+2y\frac{dy}{dx}=0 \;\Longrightarrow\; \frac{dy}{dx}=-\frac{x}{y}. $$
我們得到了切線斜率,完全不需要把 $y$ 解出來。在點 $(3,4)$ 斜率是 $-\tfrac34$。這個技巧的威力在於:它把「微分」從「對顯式公式操作」解放成「對任何關係操作」。
隱函數微分還給了我們一個漂亮的副產品——反函數的導數。設 $g=f^{-1}$,則 $f(g(x))=x$。兩邊微分並用連鎖律:
$$ f'\big(g(x)\big)\cdot g'(x)=1 \;\Longrightarrow\; g'(x)=\frac{1}{f'\big(g(x)\big)}. $$
這條公式立刻解釋了一堆「為什麼」。為什麼 $\frac{d}{dx}\ln x=\frac1x$?因為 $\ln$ 是 $e^x$ 的反函數,而 $(e^x)'=e^x$,套公式:$(\ln x)'=\dfrac{1}{e^{\ln x}}=\dfrac1x$。為什麼 $\frac{d}{dx}\arcsin x=\dfrac{1}{\sqrt{1-x^2}}$?同理,由 $\sin$ 的反函數與 $\cos=\sqrt{1-\sin^2}$ 推出。反函數微分把一票「背起來的公式」收編成同一個原理。
動手試試:用 L'Hôpital 拆穿假象
均值定理還孵出一個學習者超愛、卻常誤用的工具——羅必達法則(L'Hôpital's rule)。當極限呈現 $\frac00$ 或 $\frac\infty\infty$ 的不定型時,可改算導數之比:
$$ \lim_{x\to a}\frac{f(x)}{g(x)}=\lim_{x\to a}\frac{f'(x)}{g'(x)}, $$
前提是右邊極限存在且滿足不定型條件。我們算一個經典:
$$ \lim_{x\to 0}\frac{\sin x - x}{x^3}. $$
直接代 $x=0$ 得 $\frac00$,是不定型。分子分母各微分一次:
$$ \lim_{x\to 0}\frac{\cos x-1}{3x^2}. $$
仍是 $\frac00$,再來一次:$\dfrac{-\sin x}{6x}$,還是 $\frac00$;第三次:$\dfrac{-\cos x}{6}\to-\dfrac16$。答案是 $-\tfrac16$。
但這裡有個進階陷阱值得你警惕:羅必達法則容易被濫用,而且很多時候泰勒展開更快更安全。同一題用泰勒看:$\sin x=x-\frac{x^3}{6}+O(x^5)$,所以 $\sin x-x=-\frac{x^3}{6}+O(x^5)$,除以 $x^3$ 立刻得 $-\frac16$。一行解決,還順便看見了高階行為。資深的做法是:遇到不定型先想泰勒,羅必達留給泰勒不方便的場合。常見迷思是「不定型就反射性地一直微分」——但若右邊極限不存在(例如 $\frac{x+\sin x}{x}$ 微分後變震盪),法則根本不適用,硬套會得到錯誤結論。
二階導數的真正身份:凹凸與穩定性
入門篇把 $f''$ 一筆帶過。但二階導數其實掌管著函數最重要的「形狀資訊」——凹凸性(convexity)。$f''(x)>0$ 表示斜率正在遞增,曲線向上彎(凸,convex);$f''(x)<0$ 則向下彎(凹,concave);$f''$ 變號的點叫反曲點(inflection point)。
這不只是畫圖技巧。凸性是整個最佳化理論的命脈:一個凸函數的「局部最小值必為全域最小值」,這保證了梯度下降不會卡在錯誤的谷底。機器學習裡為什麼大家拚命想把損失函數設計成凸的(或近似凸),答案就在 $f''$(多變數版本是 Hessian 矩陣的正定性)。一階導數告訴你「往哪走」,二階導數告訴你「這個極值靠不靠得住、收斂快不快」。
值得釐清一個常見迷思:$f''(x_0)=0$ 不代表 $x_0$ 是反曲點。例如 $f(x)=x^4$ 在 $0$ 處 $f''(0)=0$,但它兩側都是凸的,$0$ 是極小點而非反曲點。反曲點要求 $f''$ 變號,不只是等於零。同樣地,二階導數檢驗法($f'(x_0)=0$ 且 $f''(x_0)>0\Rightarrow$ 局部極小)在 $f''(x_0)=0$ 時會失效,必須回頭看更高階導數或泰勒展開的首個非零項。
重點回顧
- 均值定理是引擎,不是配角:它把一點的局部導數翻譯成整段區間的全域結論(如「$f'\equiv 0\Rightarrow f$ 為常數」),是微積分基本定理與泰勒餘項的證明地基。
- 線性近似的誤差有精確公式:泰勒餘項 $R_1=\frac{f''(\xi)}{2}(x-x_0)^2$ 說明誤差正比於距離平方與二階導數,這就是「為什麼很準」的數學答案,也能反過來框出嚴格誤差界。
- 泰勒多項式 = 越來越貼的近似族:匹配到第 $n$ 階導數,$n=1$ 是切線、$n=2$ 是最佳拋物線;高階導數越多,逼近越精細。
- 隱函數與反函數微分統一了一堆公式:對關係式整體微分免去解出 $y$;$g'(x)=1/f'(g(x))$ 一口氣解釋了 $\ln$、$\arcsin$ 等反函數導數的來源。
- 二階導數掌管形狀與穩定性:凹凸性決定極值是否全域可靠;但 $f''=0$ 不等於反曲點(須變號),二階檢驗法在此會失效。
深入探討(研究所視角)
把上面的工具再往上推一層,會通向分析學與應用數學的幾條主幹道。
泰勒級數的收斂與解析性的深淵。 泰勒多項式取 $n\to\infty$ 得到泰勒級數,但「級數收斂」與「收斂到原函數」是兩件不同的事。最著名的反例是 $f(x)=e^{-1/x^2}$(並令 $f(0)=0$):它在 $0$ 處所有階導數都是零,於是泰勒級數恆等於 $0$,卻完全不等於這個非零的函數。這道裂縫把函數分成兩個世界——光滑($C^\infty$)但不解析的函數,與解析(analytic)函數。複分析中,解析性等價於複可微,且由柯西積分公式可知複可微一次就自動無窮次可微,這與實分析的「可微一次完全不保證可微兩次」形成驚人對比,是兩個學科氣質迥異的根源。
均值定理的多維命運與 Cauchy 推廣。 純量版 MVT 在向量值函數上會「失真」:對 $f:\mathbb{R}\to\mathbb{R}^m$,不存在單一個 $c$ 讓 $f(b)-f(a)=f'(c)(b-a)$ 同時對所有分量成立。取而代之的是均值不等式 $\|f(b)-f(a)\|\le \sup_{c}\|f'(c)\|\,(b-a)$,這正是數值分析中誤差估計與 Lipschitz 連續性的理論來源。而 Cauchy 均值定理($\frac{f(b)-f(a)}{g(b)-g(a)}=\frac{f'(c)}{g'(c)}$)則是羅必達法則與泰勒餘項的共同母定理。
從導數到次微分:當光滑性消失。 入門篇提過 $|x|$ 在原點不可微。現代最佳化卻天天跟這種「尖角」打交道(L1 正則化、ReLU 激活函數、支援向量機的 hinge loss)。出路是次微分(subdifferential):在不可微點,把「唯一的切線斜率」換成「所有支撐超平面斜率的集合」。對 $|x|$ 在 $0$ 處,次微分是整個區間 $[-1,1]$。這套凸分析語言讓「導數為零即極值」推廣成「$0$ 屬於次微分集」,是現代非光滑最佳化(proximal methods、ADMM)的基礎,也讓深度學習中遍地的 ReLU 有了嚴格的微分意義。
Taylor 與數值方法的共生。 幾乎所有微分方程數值解法都是泰勒定理的化身:歐拉法是一階泰勒截斷,Runge–Kutta 是高階匹配,有限差分把導數本身用差商逼近——而每一種方法的「階數(order of accuracy)」與「截斷誤差」,都是泰勒餘項裡那個 $(x-x_0)^{n+1}$ 與 $f^{(n+1)}(\xi)$ 在記帳。你在入門篇學的差商 $\frac{f(x+h)-f(x)}{h}$,其實就是一階前向差分,它的誤差正是 $\frac{h}{2}f''(\xi)$——導數的近似與函數的近似,最終都收束回同一個泰勒框架。一旦看懂這層,你會發現「導數」不只是微積分的一個章節,而是連結分析、最佳化、數值計算與機器學習的中央車站。