多變數微積分：偏導數、梯度與重積分

從一滴水該往哪裡流，到機器學習的梯度下降——理解函數在多維世界中如何變化與累加

本科生 · 約 15 分鐘 ·#多變數微積分#偏導數#梯度#重積分#雅可比行列式

山坡上的一滴水，會往哪個方向滾？

想像你站在一座連綿起伏的山丘上，地形的高度由一個函數 $f(x, y)$ 描述：給定平面上的座標 $(x, y)$，$f$ 告訴你那一點離地面有多高。現在，你在某一點倒下一滴水。它會往哪個方向流？流得多快？

這個看似簡單的問題，其實正是多變數微積分（multivariable calculus）的核心。當函數的輸入不再只是一個數 $x$，而是一組座標 $(x, y)$ 甚至 $(x, y, z, \dots)$，「斜率」這個概念就必須重新被理解——因為在一座山上，「往哪個方向走」會得到完全不同的陡峭程度。本文要帶你認識三個關鍵工具：偏導數（partial derivative）告訴我們沿著單一座標軸的變化率；梯度（gradient）把這些變化率組裝成一個指向「最陡上升方向」的向量；而重積分（multiple integral）則讓我們在二維、三維的區域上累加，計算體積、質量與平均值。

$多變數微積分概念示意圖$

偏導數：一次只動一個變數

在單變數微積分裡，導數 $f'(x)$ 衡量「當 $x$ 改變一點點時，$f$ 跟著變多少」。但對 $f(x, y)$ 來說，輸入有兩個方向可以變動，我們必須說清楚「是哪一個變了」。

偏導數的策略很直接：一次只讓一個變數變動，其他全部當成常數。對 $x$ 的偏導數記作

$$ \frac{\partial f}{\partial x} = \lim_{h \to 0} \frac{f(x+h,\, y) - f(x,\, y)}{h}, $$

它衡量「固定 $y$、只讓 $x$ 增加時，$f$ 的變化率」。同理 $\dfrac{\partial f}{\partial y}$ 固定 $x$、只動 $y$。我們也常用簡寫 $f_x$、$f_y$。

注意這裡使用的是圓體的 $\partial$（讀作「partial」）而非單變數的 $d$，這是刻意的提醒：背後還有別的變數被我們暫時凍結了。

看一個例子

設 $f(x, y) = x^2 y + \sin(xy)$。我們分別計算兩個偏導數。

對 $x$ 求偏導時，把 $y$ 當常數：

$$ \frac{\partial f}{\partial x} = 2xy + y\cos(xy). $$

第一項 $x^2 y$ 對 $x$ 微分得 $2xy$（$y$ 是常數係數）；第二項用鏈鎖律（chain rule），$\sin(xy)$ 對 $x$ 微分得 $\cos(xy) \cdot y$。

對 $y$ 求偏導時，把 $x$ 當常數：

$$ \frac{\partial f}{\partial y} = x^2 + x\cos(xy). $$

在點 $(1, 0)$ 代入：$f_x(1,0) = 2\cdot1\cdot0 + 0\cdot\cos 0 = 0$，而 $f_y(1,0) = 1 + 1\cdot\cos 0 = 2$。這告訴我們：在 $(1,0)$ 這一點，沿 $x$ 方向移動函數值幾乎不變，但沿 $y$ 方向移動時函數以每單位 $2$ 的速率上升。

高階偏導與對稱性

偏導數本身還是函數，可以再微分。把 $f_x$ 再對 $y$ 微分，得到混合偏導數（mixed partial） $f_{xy} = \dfrac{\partial}{\partial y}\!\left(\dfrac{\partial f}{\partial x}\right)$。一個漂亮的結果是 Clairaut 定理（Clairaut's theorem，又稱 Schwarz 定理）：若 $f_{xy}$ 與 $f_{yx}$ 在某點附近連續，則兩者相等：

$$ \frac{\partial^2 f}{\partial y\, \partial x} = \frac{\partial^2 f}{\partial x\, \partial y}. $$

換言之，微分的順序可以對調。這不是理所當然的——它依賴連續性條件，存在病態的反例。但對絕大多數實際遇到的函數都成立，這也讓後面要談的 Hessian 矩陣具有對稱性。

梯度：把偏導數打包成一個方向

單獨的偏導數只說明了沿座標軸的變化。但回到開頭那滴水，它不會只沿 $x$ 軸或 $y$ 軸滾動——它會選一個最陡的方向。要描述任意方向的變化，我們把所有偏導數收進一個向量，稱為梯度：

$$ \nabla f = \left( \frac{\partial f}{\partial x},\ \frac{\partial f}{\partial y} \right). $$

符號 $\nabla$ 讀作「nabla」或「del」。梯度有三個必須記住的關鍵性質：

梯度指向函數上升最快的方向。 在任一點，$\nabla f$ 這個向量所指的方向，就是函數值增加最快的方向。那滴水會往負梯度 $-\nabla f$ 的方向流（下坡最陡的方向）。
梯度的長度 $\|\nabla f\|$ 就是那個最陡方向上的變化率。 山愈陡，梯度愈長。
梯度垂直於等高線（level curve）。 在地圖上，同高度的點連成等高線；梯度永遠與等高線正交。

要量化「沿任意方向」的變化率，我們用方向導數（directional derivative）。給定單位向量 $\mathbf{u}$，沿 $\mathbf{u}$ 方向的變化率是梯度與 $\mathbf{u}$ 的內積：

$$ D_{\mathbf{u}} f = \nabla f \cdot \mathbf{u} = \|\nabla f\|\, \|\mathbf{u}\| \cos\theta = \|\nabla f\| \cos\theta. $$

其中 $\theta$ 是 $\nabla f$ 與 $\mathbf{u}$ 的夾角。由於 $\cos\theta$ 在 $\theta = 0$ 時最大，這個式子直接證明了性質 1：當你選的方向正好對齊梯度時，變化率最大。

動手試試

設 $f(x, y) = x^2 + 3y^2$，這是一個碗狀的曲面。我們在點 $(2, 1)$ 計算梯度並找出最陡上升方向。

先求偏導數：

$$ f_x = 2x, \qquad f_y = 6y. $$

在 $(2, 1)$：$\nabla f(2, 1) = (4, 6)$。

這個向量 $(4, 6)$ 就是該點最陡上升的方向，其長度

$$ \|\nabla f\| = \sqrt{4^2 + 6^2} = \sqrt{52} = 2\sqrt{13} \approx 7.21 $$

是該方向上的變化率。

現在問：若我們沿著向量 $\mathbf{v} = (1, 1)$ 的方向移動，變化率是多少？先把 $\mathbf{v}$ 正規化成單位向量 $\mathbf{u} = \dfrac{1}{\sqrt2}(1, 1)$，再算內積：

$$ D_{\mathbf{u}} f = (4, 6) \cdot \frac{1}{\sqrt2}(1, 1) = \frac{4 + 6}{\sqrt2} = \frac{10}{\sqrt2} = 5\sqrt2 \approx 7.07. $$

注意 $7.07 < 7.21$，符合預期：沿 $(1,1)$ 走雖然也在上坡，但比不上正對梯度方向那麼陡。

這個「沿負梯度下降」的想法，正是現代機器學習中梯度下降法（gradient descent）的數學基礎——只是那裡的「山」是損失函數，維度動輒上百萬。

重積分：在區域上累加

導數談的是「變化」，積分談的是「累加」。單變數的定積分 $\int_a^b f(x)\,dx$ 計算曲線下方的面積；推廣到二維，我們在一塊平面區域 $D$ 上累加 $f(x, y)$，得到二重積分（double integral）：

$$ \iint_D f(x, y)\, dA. $$

幾何上，若 $f \ge 0$，這個積分就是曲面 $z = f(x, y)$ 與區域 $D$ 之間所圍的體積。

實務上我們用迭代積分（iterated integral）來計算：先把它當成單變數積分，一次積一個方向。Fubini 定理（Fubini's theorem）保證在合理條件下，積分順序可以對調：

$$ \iint_D f\, dA = \int_a^b \!\! \int_c^d f(x, y)\, dy\, dx = \int_c^d \!\! \int_a^b f(x, y)\, dx\, dy. $$

關鍵技巧是「由內而外」：最內層的積分把其他變數視為常數，積完後該變數消失，再積外層。

看一個例子

計算 $\displaystyle\iint_D (x + 2y)\, dA$，其中 $D$ 是矩形 $0 \le x \le 2$、$0 \le y \le 1$。

先積內層（對 $y$，把 $x$ 當常數）：

$$ \int_0^1 (x + 2y)\, dy = \left[ xy + y^2 \right]_0^1 = x + 1. $$

再積外層（對 $x$）：

$$ \int_0^2 (x + 1)\, dx = \left[ \frac{x^2}{2} + x \right]_0^2 = (2 + 2) - 0 = 4. $$

所以這個積分等於 $4$。你可以反過來先對 $x$ 積、再對 $y$ 積，會得到同樣的答案——這正是 Fubini 定理的保證。

非矩形區域與變數變換

當區域 $D$ 不是矩形（例如圓盤、三角形），積分上下限本身會變成變數的函數。例如積分一個圓形區域時，直角座標會讓上下限出現惱人的平方根。這時改用極座標（polar coordinates） $x = r\cos\theta$、$y = r\sin\theta$ 往往更簡潔。換座標時，面積元素不再是 $dx\,dy$，而要乘上一個雅可比行列式（Jacobian）因子：

$$ dA = dx\, dy = r\, dr\, d\theta. $$

那個多出來的 $r$ 不是憑空冒出的——它修正了座標變換造成的面積伸縮。一般而言，從 $(u, v)$ 變換到 $(x, y)$ 時，面積元素要乘上雅可比行列式的絕對值

$$ dx\, dy = \left| \frac{\partial(x, y)}{\partial(u, v)} \right| du\, dv = \left| \det \begin{pmatrix} x_u & x_v \\ y_u & y_v \end{pmatrix} \right| du\, dv. $$

對極座標而言，計算這個 $2\times2$ 行列式恰好得到 $r$。這是多變數積分裡最容易被忽略、卻最不能漏掉的一步。

三重積分與應用

同樣的想法可以推廣到三維的三重積分（triple integral） $\iiint_E f(x,y,z)\,dV$。當 $f = 1$ 時，它算出區域 $E$ 的體積；當 $f$ 是密度函數 $\rho(x,y,z)$ 時，它算出物體的總質量

$$ m = \iiint_E \rho\, dV. $$

進一步可算質心、轉動慣量等物理量。在三維裡，球座標（spherical coordinates）與柱座標（cylindrical coordinates）各有對應的雅可比因子（分別為 $r^2\sin\phi$ 與 $r$），選對座標往往是計算成敗的關鍵。

重點回顧

偏導數一次只讓一個變數變動、其餘視為常數，量化沿單一座標軸的變化率；高階混合偏導在連續條件下與順序無關（Clairaut 定理）。
梯度 $\nabla f$ 把所有偏導數打包成向量，指向函數上升最快的方向，其長度為該方向的最大變化率，且永遠垂直於等高線。
方向導數 $D_{\mathbf{u}}f = \nabla f \cdot \mathbf{u}$ 用內積算出沿任意方向的變化率；負梯度方向是下降最快的方向，這是梯度下降法的根基。
二重／三重積分在區域上累加函數值，可算體積、質量、平均值；用迭代積分由內而外計算，順序在 Fubini 定理下可交換。
變數變換（如極座標、球座標）必須乘上雅可比行列式修正面積／體積元素的伸縮，這一步漏不得。

深入探討（研究所視角）

把上述工具放進更抽象的框架，會看見它們其實是同一套理論的不同面向。

全微分與線性近似。 偏導數與梯度的真正意義，是把可微函數在一點附近用線性映射近似。對 $f: \mathbb{R}^n \to \mathbb{R}$，可微性意味著存在向量 $\nabla f(\mathbf{a})$ 使得

$$ f(\mathbf{a} + \mathbf{h}) = f(\mathbf{a}) + \nabla f(\mathbf{a}) \cdot \mathbf{h} + o(\|\mathbf{h}\|), $$

其中 $o(\|\mathbf{h}\|)$ 表示比 $\|\mathbf{h}\|$ 更快趨於零的誤差。值得警惕的迷思是：偏導數存在不蘊含可微，甚至不蘊含連續。 存在這樣的函數，兩個偏導數在原點都存在，函數卻在原點不連續。可微性要求的是「所有方向的一致逼近」，比「各座標軸方向各自可導」強得多。一個充分條件是：若所有偏導數在某點附近連續，則函數在該點可微（即 $C^1$ 蘊含可微）。

Hessian 與二階理論。 把梯度再微分一次，得到二階偏導數構成的 Hessian 矩陣

$$ H f = \begin{pmatrix} f_{xx} & f_{xy} \\ f_{yx} & f_{yy} \end{pmatrix}. $$

由 Clairaut 定理，在連續條件下 $Hf$ 對稱。它在臨界點（$\nabla f = \mathbf{0}$）的判別中扮演單變數二階導數的角色：$Hf$ 正定對應局部極小、負定對應局部極大、不定（有正有負特徵值）對應鞍點（saddle point）。在最佳化理論中，Hessian 的條件數（最大與最小特徵值之比）決定了梯度下降的收斂速度——這就是為什麼深度學習研究關心損失曲面的幾何。

重積分作為測度論積分。 Riemann 式的重積分有其極限：對奇異或高維區域常常力不從心。研究所的 Lebesgue 積分理論把「累加」奠基於測度（measure）之上，使 Fubini 定理在 $\sigma$-有限測度空間下獲得嚴格陳述（Fubini–Tonelli 定理），並能處理交換積分順序的合法性問題。雅可比變換公式則對應於測度論中的「變數變換定理」，把座標變換視為測度的推前（pushforward）。

通往向量微積分與微分形式。 梯度只是一階微分算子的開端。散度（divergence）、旋度（curl）與梯度共同構成向量場分析的基礎，而 Green 定理、Stokes 定理、散度定理把「區域上的積分」與「邊界上的積分」聯繫起來。在更高的觀點下，這些定理都是廣義 Stokes 定理 $\int_M d\omega = \int_{\partial M} \omega$ 的特例，其中 $\omega$ 是微分形式（differential form）。從這個高度回望，偏導、梯度、重積分不再是孤立的計算技巧，而是微分幾何與外微積分（exterior calculus）這座大廈的地基。對有志於數理、物理或機器學習理論的學習者，這正是值得繼續攀登的方向。

廣義 Stokes 定理：微分形式如何統一向量微積分

--

5

32.3%

140.05

82.02%

62,201

AI 回覆桌面通知

聊天訊息通知

聲音通知

更多設定

多變數微積分：偏導數、梯度與重積分

山坡上的一滴水，會往哪個方向滾？

偏導數：一次只動一個變數

看一個例子

高階偏導與對稱性

梯度：把偏導數打包成一個方向

動手試試

重積分：在區域上累加

看一個例子

非矩形區域與變數變換

三重積分與應用

重點回顧

深入探討（研究所視角）

uedu.tw

uedu.tw/fit