瞬間的速度：導數與微分如何馴服「變化」

從高速公路儀表板的時速數字出發，理解導數作為瞬間變化率與切線斜率的雙重身份，並掌握微分的線性近似威力。

大學基礎 · 約 14 分鐘 ·#導數#微分#極限#切線#連鎖律

高速公路上那一瞬間的速度，到底是什麼？

想像你開車上高速公路，儀表板顯示「時速 100 公里」。這個數字其實藏著一個哲學謎題：所謂「此刻的速度」是什麼意思？速度明明是「走了多少距離除以花了多少時間」，可是「此刻」只是一個沒有長度的時間點——距離是 $0$，時間也是 $0$，$\frac{0}{0}$ 根本沒有意義。然而你的儀表板卻能斬釘截鐵地告訴你一個明確的數字。

這個看似矛盾的「瞬間變化率」，正是微積分核心概念——導數（derivative）——要回答的問題。導數是人類用數學馴服「瞬間」這個概念的偉大成果，它讓我們能精準描述一個量「正在以多快的速度改變」。從行星軌道到股價波動，從人口成長到化學反應，凡是會「變化」的東西，背後都站著導數。

從平均到瞬間：極限的橋樑

$導數與微分概念示意圖$

要理解瞬間速度，我們先退一步看「平均速度」。假設你的位置由函數 $s(t)$ 描述（$t$ 是時間，$s$ 是位置）。在時間從 $t_0$ 到 $t_0 + h$ 這段期間，平均速度是：

$$ \bar{v} = \frac{s(t_0 + h) - s(t_0)}{h} $$

這個式子完全合理：分子是「移動的距離」，分母是「花掉的時間」。問題只在於 $h$ 是一段「有長度」的時間，所以算出來的是這段期間的平均，而不是某一瞬間的速度。

關鍵的想法是：如果我把這段時間 $h$ 取得越來越短——$h = 1$ 秒、$0.1$ 秒、$0.001$ 秒……——那麼這個平均速度應該會越來越接近「瞬間速度」。我們不能直接令 $h = 0$（那會變成 $\frac{0}{0}$），但我們可以問：當 $h$ 趨近於 $0$ 時，這個比值趨近於哪個數字？這就是極限（limit）：

$$ v(t_0) = \lim_{h \to 0} \frac{s(t_0 + h) - s(t_0)}{h} $$

這個極限，就是函數 $s$ 在 $t_0$ 點的導數。它把「$\frac{0}{0}$ 無意義」這個障礙，用「無限逼近」的方式繞了過去。

導數的正式定義與符號

把上面的想法一般化。對任意函數 $f(x)$，它在點 $x$ 的導數定義為：

$$ f'(x) = \lim_{h \to 0} \frac{f(x + h) - f(x)}{h} $$

只要這個極限存在，我們就說 $f$ 在 $x$ 點可微分（differentiable）。導數有好幾種常見符號，它們意思相同，只是強調的面向不同：

拉格朗日記法：$f'(x)$，簡潔，強調「導函數」本身。
萊布尼茲記法：$\dfrac{df}{dx}$ 或 $\dfrac{dy}{dx}$，強調「$y$ 對 $x$ 的變化率」，在換變數與物理中特別好用。
牛頓記法：$\dot{s}$，物理學中常用來表示對時間的導數。

那個分式 $\dfrac{f(x+h) - f(x)}{h}$ 有個專有名稱叫差商（difference quotient）。記住：導數的本質，永遠是「差商取極限」。

切線：導數的幾何意義

導數不只是「速度」，它有一個極為直觀的幾何詮釋。把函數 $f(x)$ 畫成一條曲線。取曲線上兩個點 $\big(x, f(x)\big)$ 與 $\big(x+h, f(x+h)\big)$，通過這兩點的直線叫割線（secant line），它的斜率恰好就是差商：

$$ \text{割線斜率} = \frac{f(x+h) - f(x)}{h} $$

現在讓 $h \to 0$，第二個點沿著曲線滑向第一個點，割線會逐漸轉動，最終穩定下來變成只「碰」曲線一點的切線（tangent line）。所以：

$$ f'(x) = \text{曲線在 } x \text{ 點的切線斜率} $$

這是導數的雙重身份：它既是「瞬間變化率」（分析觀點），也是「切線斜率」（幾何觀點）。切線之所以重要，是因為它是「在該點附近最貼合曲線的直線」——這正是下一節「微分」的核心。

微分：用直線近似曲線

「導數」和「微分」常被混用，其實它們是同一概念的兩面。導數是那個極限值（一個數）；微分（differential）則是用導數做的「線性近似」這件事。

當 $x$ 有一個微小變化 $dx$ 時，函數值的變化量近似為：

$$ dy = f'(x)\, dx $$

這就是微分的核心式子。它說的是：在很小的範圍內，曲線的行為幾乎跟它的切線一模一樣。換句話說，

$$ f(x + \Delta x) \approx f(x) + f'(x)\,\Delta x $$

這個近似在工程與物理中威力巨大。舉個例子：估算 $\sqrt{4.1}$。令 $f(x) = \sqrt{x}$，則 $f'(x) = \dfrac{1}{2\sqrt{x}}$。在 $x = 4$ 處 $f(4) = 2$、$f'(4) = \dfrac{1}{4}$，取 $\Delta x = 0.1$：

$$ \sqrt{4.1} \approx 2 + \frac{1}{4}\times 0.1 = 2.025 $$

實際值 $\sqrt{4.1} = 2.0248\ldots$，誤差不到萬分之一。我們沒按計算機，只用一條切線就逼近了一個開根號的值——這就是微分的實用價值。

怎麼實際算導數：基本法則

每次都用極限定義來算太累了。幸好導數有一套漂亮的法則。以下是最核心的幾條（$c$ 為常數，$n$ 為實數）：

函數 $f(x)$	導數 $f'(x)$
$c$（常數）	$0$
$x^n$	$n\,x^{n-1}$
$e^x$	$e^x$
$\ln x$	$\dfrac{1}{x}$
$\sin x$	$\cos x$
$\cos x$	$-\sin x$

加上三條運算法則：

線性：$\big(a f + b g\big)' = a f' + b g'$
乘法法則（product rule）：$\big(fg\big)' = f'g + fg'$
除法法則（quotient rule）：$\left(\dfrac{f}{g}\right)' = \dfrac{f'g - fg'}{g^2}$
連鎖律（chain rule）：$\big(f(g(x))\big)' = f'(g(x))\cdot g'(x)$

其中連鎖律最常被學習者忽略卻又最重要。它處理「函數套函數」的情形，核心精神是「層層相乘」。

看一個例子

我們來算 $f(x) = \sin(x^2)$ 的導數。這是一個外層 $\sin(\cdot)$ 套住內層 $x^2$ 的複合函數，必須用連鎖律。

設外層 $u = g(x) = x^2$，則 $f = \sin(u)$。連鎖律告訴我們：先對外層微分、保留內層不動，再乘上內層的導數：

$$ f'(x) = \underbrace{\cos(x^2)}_{\text{外層微分}} \cdot \underbrace{2x}_{\text{內層微分}} = 2x\cos(x^2) $$

常見迷思是直接寫成 $\cos(x^2)$ 就停手，漏掉了 $2x$ 這個內層導數。連鎖律的口訣是：「外導 × 內導」，缺一不可。

再看一個用到乘法法則的：$f(x) = x^2 e^x$。

$$ f'(x) = \big(x^2\big)' e^x + x^2 \big(e^x\big)' = 2x\,e^x + x^2 e^x = x e^x (2 + x) $$

動手試試

試著自己驗證導數的「極限定義」與「法則」會給出一致的答案。以 $f(x) = x^2$ 為例，用定義計算：

$$ f'(x) = \lim_{h\to 0}\frac{(x+h)^2 - x^2}{h} = \lim_{h\to 0}\frac{x^2 + 2xh + h^2 - x^2}{h} = \lim_{h\to 0}\frac{2xh + h^2}{h} $$

在 $h \neq 0$ 時可以約掉 $h$：

$$ = \lim_{h\to 0}(2x + h) = 2x $$

結果是 $f'(x) = 2x$，與冪次法則 $\frac{d}{dx}x^2 = 2x^{2-1} = 2x$ 完全吻合。注意那個關鍵步驟：因為極限是「$h$ 趨近 $0$ 但不等於 $0$」，所以我們有資格把 $h$ 約掉，這正是極限繞過 $\frac{0}{0}$ 的精髓。

可微分意味著什麼：連續與光滑

不是所有函數在每一點都可微分。導數存在需要曲線在該點「足夠光滑」。兩個經典反例：

絕對值函數 $f(x) = |x|$ 在 $x = 0$ 處不可微分。從左邊看斜率是 $-1$，從右邊看斜率是 $+1$，左右極限不一致，導數不存在。圖形上這裡有個「尖角」。
垂直切線，如 $f(x) = \sqrt[3]{x}$ 在 $x = 0$ 處，切線是垂直的，斜率「等於無窮大」，導數也不存在。

有一個重要定理：可微分必連續，但連續不一定可微分。直覺上，如果一條曲線在某點斷掉（不連續），你根本畫不出唯一的切線；但即使連續，也可能有尖角（如 $|x|$）讓導數失效。$|x|$ 就是「連續但不可微」的標準範例。

重點回顧

導數是瞬間變化率：透過差商 $\frac{f(x+h)-f(x)}{h}$ 取 $h\to 0$ 的極限定義，用「無限逼近」繞過 $\frac{0}{0}$ 的困境。
導數就是切線斜率：割線在第二點滑向第一點時，極限狀態即為切線，這賦予導數清晰的幾何意義。
微分是線性近似：$dy = f'(x)\,dx$，在小範圍內用切線取代曲線，可快速估算如 $\sqrt{4.1}\approx 2.025$ 這類數值。
連鎖律最易出錯：複合函數要「外導 × 內導」，例如 $\frac{d}{dx}\sin(x^2) = 2x\cos(x^2)$，千萬別漏掉內層導數。
可微分必連續，反之不然：尖角（如 $|x|$ 在原點）或垂直切線處，導數不存在。

深入探討（研究所視角）

當你進入更高階的數學與其應用，導數的概念會被推廣到遠超「切線斜率」的層次，以下幾條線索值得追索。

從線性近似到 Fréchet 導數。 大學初學者把導數理解為「斜率」，但更深刻的觀點是：導數是最佳線性近似算子。對於多變數函數 $f:\mathbb{R}^n \to \mathbb{R}^m$，導數不再是一個數，而是一個線性映射——Jacobian 矩陣。$f$ 在點 $\mathbf{a}$ 可微，意指存在線性映射 $Df(\mathbf{a})$ 使得

$$ \lim_{\mathbf{h}\to\mathbf{0}} \frac{\|f(\mathbf{a}+\mathbf{h}) - f(\mathbf{a}) - Df(\mathbf{a})\mathbf{h}\|}{\|\mathbf{h}\|} = 0 $$

這個「以線性映射逼近」的定義可進一步抽象到 Banach 空間，成為Fréchet 導數，是泛函分析與變分法的基石。值得注意的是，這正是現代深度學習的數學核心：神經網路訓練中的反向傳播（backpropagation）本質上就是連鎖律在高維 Jacobian 上的系統化套用，而自動微分（automatic differentiation）則是讓電腦精確計算這些導數的演算法。

梯度與最佳化。 多變數函數的導數推廣為梯度（gradient） $\nabla f = \left(\frac{\partial f}{\partial x_1}, \ldots, \frac{\partial f}{\partial x_n}\right)$，它指向函數上升最快的方向。梯度下降法（gradient descent）——沿著 $-\nabla f$ 方向迭代——是當代機器學習、計量經濟、運籌最佳化的共同引擎。理解導數，就是理解「如何找到最好的方向」。

從平均到瞬間的測度論再思考。 微積分基本定理告訴我們微分與積分互為逆運算：$\frac{d}{dx}\int_a^x f(t)\,dt = f(x)$。但當函數不夠光滑時，「導數存在嗎」這個問題會引向更精緻的工具：幾乎處處可微（almost everywhere differentiability）、Radon–Nikodym 導數（測度對測度的「導數」）、以及弱導數（weak derivative）與 Sobolev 空間——後者是偏微分方程（PDE）與有限元素法的理論基礎。著名的 Weierstrass 函數則是「處處連續、處處不可微」的反直覺反例，提醒我們「連續」與「光滑」之間的鴻溝比想像中深。

跨領域連結。 在物理中，導數串起整個運動學（位置→速度→加速度）與場論；在經濟學中，「邊際成本」「邊際效用」就是成本函數、效用函數的導數，整個邊際分析框架建立其上；在教育資料分析中，學習曲線的「斜率」（學習速率）正是導數思維的應用，可量化學生在某時刻的進步速度。導數之所以是微積分的入口，正因為「變化率」是描述這個動態世界最普遍的語言——一旦你學會用導數思考，便擁有了量化「改變」本身的能力。

誤差藏在二階導數裡：均值定理、泰勒展開與導數的全域威力

--

5

32.3%

140.05

82.02%

62,201

AI 回覆桌面通知

聊天訊息通知

聲音通知

更多設定