誤差藏在二階導數裡：均值定理、泰勒展開與導數的全域威力

線性近似只對了一半。本文從均值定理出發，揭開泰勒餘項如何精確控制誤差，再串起隱函數微分、反函數導數、羅必達法則與凹凸性，把導數從「一個斜率」升級為駕馭函數全域行為的工具。

進階 · 約 16 分鐘 ·#導數#泰勒定理#均值定理#隱函數微分#凹凸性#微積分

線性近似只對了一半，那「另一半」藏在哪裡？

入門篇告訴你一件好用的事：在小範圍內，曲線幾乎等於它的切線，所以 $f(x+\Delta x)\approx f(x)+f'(x)\,\Delta x$。我們還用它估出 $\sqrt{4.1}\approx 2.025$，誤差小到萬分之一。但這裡藏著一個被刻意跳過的問題：那個「$\approx$」到底差了多少？誤差不是一個含糊的「很小」就能交代的——它有精確的數學形式，而且形式本身就告訴你「為什麼線性近似在這裡很準、在別處卻爛掉」。

更挑釁一點地問：如果一階導數給的是「最佳的直線」，那有沒有「最佳的拋物線」「最佳的三次曲線」？把這個念頭推到極限，就是泰勒展開（Taylor expansion）。而真正讓這一切站得住腳、把「逼近」從直覺升級為定理的，是一個外表樸素、威力驚人的結果——均值定理（Mean Value Theorem, MVT）。這篇進階篇就從這裡切入：我們不再把導數當成「一個斜率」，而是把它當成一套能控制函數全域行為的工具。

均值定理：把局部導數變成全域結論

$導數與微分進階概念示意圖$

導數定義在「一點」上，是純粹的局部資訊。但我們真正想知道的事情往往是全域的：函數在一整段區間上漲了多少？兩個函數差距會不會越拉越大？把局部導數翻譯成全域結論的橋樑，就是均值定理。

先看它的基石——羅爾定理（Rolle's theorem）。若 $f$ 在閉區間 $[a,b]$ 上連續、在開區間 $(a,b)$ 上可微，且 $f(a)=f(b)$，則必存在某點 $c\in(a,b)$ 使得

$$ f'(c)=0. $$

直覺非常清楚：一條光滑曲線從同一高度出發、回到同一高度，中間一定有個地方「水平」（不是最高點就是最低點，那裡斜率為零）。把這個「起點終點等高」的限制鬆開，就得到一般的均值定理：

$$ f'(c)=\frac{f(b)-f(a)}{b-a}. $$

讀法是：在區間中某一點，瞬間變化率恰好等於整段的平均變化率。開車從台北到新竹平均時速 $90$，那麼路上必定有某個瞬間你的儀表板正好指著 $90$——這就是 MVT 的白話版。

均值定理表面平淡，卻是整個微分學嚴格化的引擎。一個直接而深刻的推論：若在區間上恆有 $f'(x)=0$，則 $f$ 是常數。這看似廢話，但它是「微分的逆運算（積分）只差一個常數」的根本理由，也是微積分基本定理嚴格證明的關鍵零件。沒有 MVT，整個「導數能控制函數」的大廈就少了地基。

從一條直線到一整族曲線：泰勒定理

現在回到開頭的問題。線性近似只用到 $f(x_0)$ 和 $f'(x_0)$ 兩個數，它能匹配曲線在 $x_0$ 的「值」與「斜率」，但管不了「彎曲程度」。彎曲程度由二階導數 $f''$ 掌管。如果我們允許自己用更多階導數，就能造出越來越貼合的近似多項式：

$$ P_n(x)=\sum_{k=0}^{n}\frac{f^{(k)}(x_0)}{k!}\,(x-x_0)^k. $$

這個 $n$ 次多項式 $P_n$ 在 $x_0$ 處與 $f$ 共享前 $n$ 階導數——值一樣、斜率一樣、彎度一樣……一路匹配到第 $n$ 階。$n=1$ 時它就退化成入門篇的切線近似；$n=2$ 時多了一個 $\frac{f''(x_0)}{2}(x-x_0)^2$ 項，那就是「最佳的拋物線」。

但關鍵不在這個多項式長什麼樣，而在那個被入門篇含糊帶過的「誤差」。泰勒定理（Taylor's theorem with Lagrange remainder）給出精確答案：

$$ f(x)=P_n(x)+R_n(x),\qquad R_n(x)=\frac{f^{(n+1)}(\xi)}{(n+1)!}\,(x-x_0)^{n+1}, $$

其中 $\xi$ 是介於 $x_0$ 與 $x$ 之間的某個（未知但確實存在的）點。注意這個餘項的形式和泰勒多項式下一項長得幾乎一樣，只是把導數從 $x_0$ 換成中間點 $\xi$——而保證這個 $\xi$ 存在的，正是上一節的均值定理（餘項定理本質上是 MVT 的高階推廣，用 Cauchy 均值定理證明）。

這個餘項公式徹底解釋了入門篇的「為什麼很準」。線性近似（$n=1$）的誤差是

$$ R_1(x)=\frac{f''(\xi)}{2}\,(x-x_0)^2. $$

誤差正比於 $(x-x_0)^2$——所以只要 $x$ 離 $x_0$ 夠近，誤差會以平方速度縮小；同時誤差正比於 $f''$，也就是「曲線越彎，直線近似越爛」。$\sqrt{4.1}$ 那題之所以準，是因為 $0.1$ 平方後只剩 $0.01$，而 $\sqrt{x}$ 在 $x=4$ 附近又相當平直（$f''$ 很小）。線性近似的成敗，全寫在二階導數裡。

看一個例子：用泰勒定理「框住」誤差

我們重做 $\sqrt{4.1}$，但這次不只給估計值，還要證明誤差有多小。取 $f(x)=\sqrt{x}$，$x_0=4$，$x=4.1$。

一、二階導數：

$$ f'(x)=\frac{1}{2}x^{-1/2},\qquad f''(x)=-\frac{1}{4}x^{-3/2}. $$

線性近似仍是 $P_1(4.1)=2+\tfrac14(0.1)=2.025$。誤差為

$$ R_1=\frac{f''(\xi)}{2}(0.1)^2=\frac{1}{2}\left(-\frac{1}{4}\xi^{-3/2}\right)(0.01),\qquad \xi\in(4,\,4.1). $$

我們不知道 $\xi$ 的確切值，但知道它在 $(4,4.1)$ 裡，所以 $\xi^{-3/2}$ 最大不超過 $4^{-3/2}=\tfrac18$。於是

$$ |R_1|\le \frac{1}{2}\cdot\frac{1}{4}\cdot\frac{1}{8}\cdot 0.01=\frac{0.01}{64}\approx 1.56\times 10^{-4}. $$

這就是嚴格的誤差上界：我們保證 $\sqrt{4.1}$ 與 $2.025$ 的差不超過 $0.00016$。實際差約 $0.000195$？不，實際 $\sqrt{4.1}=2.024846\ldots$，差約 $1.5\times10^{-4}$，正好落在我們框住的界內。這就是泰勒定理比入門篇高明的地方——它不只給近似，還給保證。工程與數值分析裡，「估計值」沒有「誤差界」是不能用的，而誤差界正來自高階導數。

隱函數與反函數：當 $y$ 解不出來時

入門篇的所有函數都寫成 $y=f(x)$，可以直接套法則。但很多重要關係根本解不出 $y$。例如圓 $x^2+y^2=25$，或更兇狠的 $x^3+y^3=6xy$（笛卡兒葉形線）。這時 $y$ 是 $x$ 的隱函數，我們用隱函數微分（implicit differentiation）：把 $y$ 當成 $x$ 的函數，對整條方程式兩邊微分，凡遇到 $y$ 就用連鎖律補上 $\frac{dy}{dx}$。

對 $x^2+y^2=25$ 兩邊微分：

$$ 2x+2y\frac{dy}{dx}=0 \;\Longrightarrow\; \frac{dy}{dx}=-\frac{x}{y}. $$

我們得到了切線斜率，完全不需要把 $y$ 解出來。在點 $(3,4)$ 斜率是 $-\tfrac34$。這個技巧的威力在於：它把「微分」從「對顯式公式操作」解放成「對任何關係操作」。

隱函數微分還給了我們一個漂亮的副產品——反函數的導數。設 $g=f^{-1}$，則 $f(g(x))=x$。兩邊微分並用連鎖律：

$$ f'\big(g(x)\big)\cdot g'(x)=1 \;\Longrightarrow\; g'(x)=\frac{1}{f'\big(g(x)\big)}. $$

這條公式立刻解釋了一堆「為什麼」。為什麼 $\frac{d}{dx}\ln x=\frac1x$？因為 $\ln$ 是 $e^x$ 的反函數，而 $(e^x)'=e^x$，套公式：$(\ln x)'=\dfrac{1}{e^{\ln x}}=\dfrac1x$。為什麼 $\frac{d}{dx}\arcsin x=\dfrac{1}{\sqrt{1-x^2}}$？同理，由 $\sin$ 的反函數與 $\cos=\sqrt{1-\sin^2}$ 推出。反函數微分把一票「背起來的公式」收編成同一個原理。

動手試試：用 L'Hôpital 拆穿假象

均值定理還孵出一個學習者超愛、卻常誤用的工具——羅必達法則（L'Hôpital's rule）。當極限呈現 $\frac00$ 或 $\frac\infty\infty$ 的不定型時，可改算導數之比：

$$ \lim_{x\to a}\frac{f(x)}{g(x)}=\lim_{x\to a}\frac{f'(x)}{g'(x)}, $$

前提是右邊極限存在且滿足不定型條件。我們算一個經典：

$$ \lim_{x\to 0}\frac{\sin x - x}{x^3}. $$

直接代 $x=0$ 得 $\frac00$，是不定型。分子分母各微分一次：

$$ \lim_{x\to 0}\frac{\cos x-1}{3x^2}. $$

仍是 $\frac00$，再來一次：$\dfrac{-\sin x}{6x}$，還是 $\frac00$；第三次：$\dfrac{-\cos x}{6}\to-\dfrac16$。答案是 $-\tfrac16$。

但這裡有個進階陷阱值得你警惕：羅必達法則容易被濫用，而且很多時候泰勒展開更快更安全。同一題用泰勒看：$\sin x=x-\frac{x^3}{6}+O(x^5)$，所以 $\sin x-x=-\frac{x^3}{6}+O(x^5)$，除以 $x^3$ 立刻得 $-\frac16$。一行解決，還順便看見了高階行為。資深的做法是：遇到不定型先想泰勒，羅必達留給泰勒不方便的場合。常見迷思是「不定型就反射性地一直微分」——但若右邊極限不存在（例如 $\frac{x+\sin x}{x}$ 微分後變震盪），法則根本不適用，硬套會得到錯誤結論。

二階導數的真正身份：凹凸與穩定性

入門篇把 $f''$ 一筆帶過。但二階導數其實掌管著函數最重要的「形狀資訊」——凹凸性（convexity）。$f''(x)>0$ 表示斜率正在遞增，曲線向上彎（凸，convex）；$f''(x)<0$ 則向下彎（凹，concave）；$f''$ 變號的點叫反曲點（inflection point）。

這不只是畫圖技巧。凸性是整個最佳化理論的命脈：一個凸函數的「局部最小值必為全域最小值」，這保證了梯度下降不會卡在錯誤的谷底。機器學習裡為什麼大家拚命想把損失函數設計成凸的（或近似凸），答案就在 $f''$（多變數版本是 Hessian 矩陣的正定性）。一階導數告訴你「往哪走」，二階導數告訴你「這個極值靠不靠得住、收斂快不快」。

值得釐清一個常見迷思：$f''(x_0)=0$ 不代表 $x_0$ 是反曲點。例如 $f(x)=x^4$ 在 $0$ 處 $f''(0)=0$，但它兩側都是凸的，$0$ 是極小點而非反曲點。反曲點要求 $f''$ 變號，不只是等於零。同樣地，二階導數檢驗法（$f'(x_0)=0$ 且 $f''(x_0)>0\Rightarrow$ 局部極小）在 $f''(x_0)=0$ 時會失效，必須回頭看更高階導數或泰勒展開的首個非零項。

重點回顧

均值定理是引擎，不是配角：它把一點的局部導數翻譯成整段區間的全域結論（如「$f'\equiv 0\Rightarrow f$ 為常數」），是微積分基本定理與泰勒餘項的證明地基。
線性近似的誤差有精確公式：泰勒餘項 $R_1=\frac{f''(\xi)}{2}(x-x_0)^2$ 說明誤差正比於距離平方與二階導數，這就是「為什麼很準」的數學答案，也能反過來框出嚴格誤差界。
泰勒多項式 = 越來越貼的近似族：匹配到第 $n$ 階導數，$n=1$ 是切線、$n=2$ 是最佳拋物線；高階導數越多，逼近越精細。
隱函數與反函數微分統一了一堆公式：對關係式整體微分免去解出 $y$；$g'(x)=1/f'(g(x))$ 一口氣解釋了 $\ln$、$\arcsin$ 等反函數導數的來源。
二階導數掌管形狀與穩定性：凹凸性決定極值是否全域可靠；但 $f''=0$ 不等於反曲點（須變號），二階檢驗法在此會失效。

深入探討（研究所視角）

把上面的工具再往上推一層，會通向分析學與應用數學的幾條主幹道。

泰勒級數的收斂與解析性的深淵。 泰勒多項式取 $n\to\infty$ 得到泰勒級數，但「級數收斂」與「收斂到原函數」是兩件不同的事。最著名的反例是 $f(x)=e^{-1/x^2}$（並令 $f(0)=0$）：它在 $0$ 處所有階導數都是零，於是泰勒級數恆等於 $0$，卻完全不等於這個非零的函數。這道裂縫把函數分成兩個世界——光滑（$C^\infty$）但不解析的函數，與解析（analytic）函數。複分析中，解析性等價於複可微，且由柯西積分公式可知複可微一次就自動無窮次可微，這與實分析的「可微一次完全不保證可微兩次」形成驚人對比，是兩個學科氣質迥異的根源。

均值定理的多維命運與 Cauchy 推廣。 純量版 MVT 在向量值函數上會「失真」：對 $f:\mathbb{R}\to\mathbb{R}^m$，不存在單一個 $c$ 讓 $f(b)-f(a)=f'(c)(b-a)$ 同時對所有分量成立。取而代之的是均值不等式 $\|f(b)-f(a)\|\le \sup_{c}\|f'(c)\|\,(b-a)$，這正是數值分析中誤差估計與 Lipschitz 連續性的理論來源。而 Cauchy 均值定理（$\frac{f(b)-f(a)}{g(b)-g(a)}=\frac{f'(c)}{g'(c)}$）則是羅必達法則與泰勒餘項的共同母定理。

從導數到次微分：當光滑性消失。 入門篇提過 $|x|$ 在原點不可微。現代最佳化卻天天跟這種「尖角」打交道（L1 正則化、ReLU 激活函數、支援向量機的 hinge loss）。出路是次微分（subdifferential）：在不可微點，把「唯一的切線斜率」換成「所有支撐超平面斜率的集合」。對 $|x|$ 在 $0$ 處，次微分是整個區間 $[-1,1]$。這套凸分析語言讓「導數為零即極值」推廣成「$0$ 屬於次微分集」，是現代非光滑最佳化（proximal methods、ADMM）的基礎，也讓深度學習中遍地的 ReLU 有了嚴格的微分意義。

Taylor 與數值方法的共生。 幾乎所有微分方程數值解法都是泰勒定理的化身：歐拉法是一階泰勒截斷，Runge–Kutta 是高階匹配，有限差分把導數本身用差商逼近——而每一種方法的「階數（order of accuracy）」與「截斷誤差」，都是泰勒餘項裡那個 $(x-x_0)^{n+1}$ 與 $f^{(n+1)}(\xi)$ 在記帳。你在入門篇學的差商 $\frac{f(x+h)-f(x)}{h}$，其實就是一階前向差分，它的誤差正是 $\frac{h}{2}f''(\xi)$——導數的近似與函數的近似，最終都收束回同一個泰勒框架。一旦看懂這層，你會發現「導數」不只是微積分的一個章節，而是連結分析、最佳化、數值計算與機器學習的中央車站。

← 上一篇

瞬間的速度：導數與微分如何馴服「變化」

--

5

32.3%

140.05

82.02%

62,201

AI 回覆桌面通知

聊天訊息通知

聲音通知

更多設定