Home
探索 Uedu
學生控制台
註冊會員/登入
研究知情同意中心
問卷中心
教師控制台
課程設定
支援與訊息
Uptime 數據

UeduGPTs

--

Jupyters

5

UG26 CISOSE26
臺北 AQI 58 · 臺中 AQI 50 · 臺南 AQI 49 · 高雄 AQI 49

AI 回覆桌面通知

AI 助教回覆完成時顯示桌面通知

聊天訊息通知

同學在討論區發送訊息時通知

聲音通知

每當有新通知時播放提示音

多變數微積分

多變數微積分:偏導數、梯度與重積分

從一滴水該往哪裡流,到機器學習的梯度下降——理解函數在多維世界中如何變化與累加

山坡上的一滴水,會往哪個方向滾?

想像你站在一座連綿起伏的山丘上,地形的高度由一個函數 $f(x, y)$ 描述:給定平面上的座標 $(x, y)$,$f$ 告訴你那一點離地面有多高。現在,你在某一點倒下一滴水。它會往哪個方向流?流得多快?

這個看似簡單的問題,其實正是多變數微積分(multivariable calculus)的核心。當函數的輸入不再只是一個數 $x$,而是一組座標 $(x, y)$ 甚至 $(x, y, z, \dots)$,「斜率」這個概念就必須重新被理解——因為在一座山上,「往哪個方向走」會得到完全不同的陡峭程度。本文要帶你認識三個關鍵工具:偏導數(partial derivative)告訴我們沿著單一座標軸的變化率;梯度(gradient)把這些變化率組裝成一個指向「最陡上升方向」的向量;而重積分(multiple integral)則讓我們在二維、三維的區域上累加,計算體積、質量與平均值。

多變數微積分概念示意圖

偏導數:一次只動一個變數

在單變數微積分裡,導數 $f'(x)$ 衡量「當 $x$ 改變一點點時,$f$ 跟著變多少」。但對 $f(x, y)$ 來說,輸入有兩個方向可以變動,我們必須說清楚「是哪一個變了」。

偏導數的策略很直接:一次只讓一個變數變動,其他全部當成常數。對 $x$ 的偏導數記作

$$ \frac{\partial f}{\partial x} = \lim_{h \to 0} \frac{f(x+h,\, y) - f(x,\, y)}{h}, $$

它衡量「固定 $y$、只讓 $x$ 增加時,$f$ 的變化率」。同理 $\dfrac{\partial f}{\partial y}$ 固定 $x$、只動 $y$。我們也常用簡寫 $f_x$、$f_y$。

注意這裡使用的是圓體的 $\partial$(讀作「partial」)而非單變數的 $d$,這是刻意的提醒:背後還有別的變數被我們暫時凍結了。

看一個例子

設 $f(x, y) = x^2 y + \sin(xy)$。我們分別計算兩個偏導數。

對 $x$ 求偏導時,把 $y$ 當常數:

$$ \frac{\partial f}{\partial x} = 2xy + y\cos(xy). $$

第一項 $x^2 y$ 對 $x$ 微分得 $2xy$($y$ 是常數係數);第二項用鏈鎖律(chain rule),$\sin(xy)$ 對 $x$ 微分得 $\cos(xy) \cdot y$。

對 $y$ 求偏導時,把 $x$ 當常數:

$$ \frac{\partial f}{\partial y} = x^2 + x\cos(xy). $$

在點 $(1, 0)$ 代入:$f_x(1,0) = 2\cdot1\cdot0 + 0\cdot\cos 0 = 0$,而 $f_y(1,0) = 1 + 1\cdot\cos 0 = 2$。這告訴我們:在 $(1,0)$ 這一點,沿 $x$ 方向移動函數值幾乎不變,但沿 $y$ 方向移動時函數以每單位 $2$ 的速率上升。

高階偏導與對稱性

偏導數本身還是函數,可以再微分。把 $f_x$ 再對 $y$ 微分,得到混合偏導數(mixed partial) $f_{xy} = \dfrac{\partial}{\partial y}\!\left(\dfrac{\partial f}{\partial x}\right)$。一個漂亮的結果是 Clairaut 定理(Clairaut's theorem,又稱 Schwarz 定理):若 $f_{xy}$ 與 $f_{yx}$ 在某點附近連續,則兩者相等:

$$ \frac{\partial^2 f}{\partial y\, \partial x} = \frac{\partial^2 f}{\partial x\, \partial y}. $$

換言之,微分的順序可以對調。這不是理所當然的——它依賴連續性條件,存在病態的反例。但對絕大多數實際遇到的函數都成立,這也讓後面要談的 Hessian 矩陣具有對稱性。

梯度:把偏導數打包成一個方向

單獨的偏導數只說明了沿座標軸的變化。但回到開頭那滴水,它不會只沿 $x$ 軸或 $y$ 軸滾動——它會選一個最陡的方向。要描述任意方向的變化,我們把所有偏導數收進一個向量,稱為梯度

$$ \nabla f = \left( \frac{\partial f}{\partial x},\ \frac{\partial f}{\partial y} \right). $$

符號 $\nabla$ 讀作「nabla」或「del」。梯度有三個必須記住的關鍵性質:

  1. 梯度指向函數上升最快的方向。 在任一點,$\nabla f$ 這個向量所指的方向,就是函數值增加最快的方向。那滴水會往負梯度 $-\nabla f$ 的方向流(下坡最陡的方向)。

  2. 梯度的長度 $\|\nabla f\|$ 就是那個最陡方向上的變化率。 山愈陡,梯度愈長。

  3. 梯度垂直於等高線(level curve)。 在地圖上,同高度的點連成等高線;梯度永遠與等高線正交。

要量化「沿任意方向」的變化率,我們用方向導數(directional derivative)。給定單位向量 $\mathbf{u}$,沿 $\mathbf{u}$ 方向的變化率是梯度與 $\mathbf{u}$ 的內積:

$$ D_{\mathbf{u}} f = \nabla f \cdot \mathbf{u} = \|\nabla f\|\, \|\mathbf{u}\| \cos\theta = \|\nabla f\| \cos\theta. $$

其中 $\theta$ 是 $\nabla f$ 與 $\mathbf{u}$ 的夾角。由於 $\cos\theta$ 在 $\theta = 0$ 時最大,這個式子直接證明了性質 1:當你選的方向正好對齊梯度時,變化率最大。

動手試試

設 $f(x, y) = x^2 + 3y^2$,這是一個碗狀的曲面。我們在點 $(2, 1)$ 計算梯度並找出最陡上升方向。

先求偏導數:

$$ f_x = 2x, \qquad f_y = 6y. $$

在 $(2, 1)$:$\nabla f(2, 1) = (4, 6)$。

這個向量 $(4, 6)$ 就是該點最陡上升的方向,其長度

$$ \|\nabla f\| = \sqrt{4^2 + 6^2} = \sqrt{52} = 2\sqrt{13} \approx 7.21 $$

是該方向上的變化率。

現在問:若我們沿著向量 $\mathbf{v} = (1, 1)$ 的方向移動,變化率是多少?先把 $\mathbf{v}$ 正規化成單位向量 $\mathbf{u} = \dfrac{1}{\sqrt2}(1, 1)$,再算內積:

$$ D_{\mathbf{u}} f = (4, 6) \cdot \frac{1}{\sqrt2}(1, 1) = \frac{4 + 6}{\sqrt2} = \frac{10}{\sqrt2} = 5\sqrt2 \approx 7.07. $$

注意 $7.07 < 7.21$,符合預期:沿 $(1,1)$ 走雖然也在上坡,但比不上正對梯度方向那麼陡。

這個「沿負梯度下降」的想法,正是現代機器學習中梯度下降法(gradient descent)的數學基礎——只是那裡的「山」是損失函數,維度動輒上百萬。

重積分:在區域上累加

導數談的是「變化」,積分談的是「累加」。單變數的定積分 $\int_a^b f(x)\,dx$ 計算曲線下方的面積;推廣到二維,我們在一塊平面區域 $D$ 上累加 $f(x, y)$,得到二重積分(double integral)

$$ \iint_D f(x, y)\, dA. $$

幾何上,若 $f \ge 0$,這個積分就是曲面 $z = f(x, y)$ 與區域 $D$ 之間所圍的體積

實務上我們用迭代積分(iterated integral)來計算:先把它當成單變數積分,一次積一個方向。Fubini 定理(Fubini's theorem)保證在合理條件下,積分順序可以對調:

$$ \iint_D f\, dA = \int_a^b \!\! \int_c^d f(x, y)\, dy\, dx = \int_c^d \!\! \int_a^b f(x, y)\, dx\, dy. $$

關鍵技巧是「由內而外」:最內層的積分把其他變數視為常數,積完後該變數消失,再積外層。

看一個例子

計算 $\displaystyle\iint_D (x + 2y)\, dA$,其中 $D$ 是矩形 $0 \le x \le 2$、$0 \le y \le 1$。

先積內層(對 $y$,把 $x$ 當常數):

$$ \int_0^1 (x + 2y)\, dy = \left[ xy + y^2 \right]_0^1 = x + 1. $$

再積外層(對 $x$):

$$ \int_0^2 (x + 1)\, dx = \left[ \frac{x^2}{2} + x \right]_0^2 = (2 + 2) - 0 = 4. $$

所以這個積分等於 $4$。你可以反過來先對 $x$ 積、再對 $y$ 積,會得到同樣的答案——這正是 Fubini 定理的保證。

非矩形區域與變數變換

當區域 $D$ 不是矩形(例如圓盤、三角形),積分上下限本身會變成變數的函數。例如積分一個圓形區域時,直角座標會讓上下限出現惱人的平方根。這時改用極座標(polar coordinates) $x = r\cos\theta$、$y = r\sin\theta$ 往往更簡潔。換座標時,面積元素不再是 $dx\,dy$,而要乘上一個雅可比行列式(Jacobian)因子:

$$ dA = dx\, dy = r\, dr\, d\theta. $$

那個多出來的 $r$ 不是憑空冒出的——它修正了座標變換造成的面積伸縮。一般而言,從 $(u, v)$ 變換到 $(x, y)$ 時,面積元素要乘上雅可比行列式的絕對值

$$ dx\, dy = \left| \frac{\partial(x, y)}{\partial(u, v)} \right| du\, dv = \left| \det \begin{pmatrix} x_u & x_v \\ y_u & y_v \end{pmatrix} \right| du\, dv. $$

對極座標而言,計算這個 $2\times2$ 行列式恰好得到 $r$。這是多變數積分裡最容易被忽略、卻最不能漏掉的一步。

三重積分與應用

同樣的想法可以推廣到三維的三重積分(triple integral) $\iiint_E f(x,y,z)\,dV$。當 $f = 1$ 時,它算出區域 $E$ 的體積;當 $f$ 是密度函數 $\rho(x,y,z)$ 時,它算出物體的總質量

$$ m = \iiint_E \rho\, dV. $$

進一步可算質心、轉動慣量等物理量。在三維裡,球座標(spherical coordinates)與柱座標(cylindrical coordinates)各有對應的雅可比因子(分別為 $r^2\sin\phi$ 與 $r$),選對座標往往是計算成敗的關鍵。

重點回顧

  • 偏導數一次只讓一個變數變動、其餘視為常數,量化沿單一座標軸的變化率;高階混合偏導在連續條件下與順序無關(Clairaut 定理)。
  • 梯度 $\nabla f$ 把所有偏導數打包成向量,指向函數上升最快的方向,其長度為該方向的最大變化率,且永遠垂直於等高線。
  • 方向導數 $D_{\mathbf{u}}f = \nabla f \cdot \mathbf{u}$ 用內積算出沿任意方向的變化率;負梯度方向是下降最快的方向,這是梯度下降法的根基。
  • 二重/三重積分在區域上累加函數值,可算體積、質量、平均值;用迭代積分由內而外計算,順序在 Fubini 定理下可交換。
  • 變數變換(如極座標、球座標)必須乘上雅可比行列式修正面積/體積元素的伸縮,這一步漏不得。

深入探討(研究所視角)

把上述工具放進更抽象的框架,會看見它們其實是同一套理論的不同面向。

全微分與線性近似。 偏導數與梯度的真正意義,是把可微函數在一點附近用線性映射近似。對 $f: \mathbb{R}^n \to \mathbb{R}$,可微性意味著存在向量 $\nabla f(\mathbf{a})$ 使得

$$ f(\mathbf{a} + \mathbf{h}) = f(\mathbf{a}) + \nabla f(\mathbf{a}) \cdot \mathbf{h} + o(\|\mathbf{h}\|), $$

其中 $o(\|\mathbf{h}\|)$ 表示比 $\|\mathbf{h}\|$ 更快趨於零的誤差。值得警惕的迷思是:偏導數存在不蘊含可微,甚至不蘊含連續。 存在這樣的函數,兩個偏導數在原點都存在,函數卻在原點不連續。可微性要求的是「所有方向的一致逼近」,比「各座標軸方向各自可導」強得多。一個充分條件是:若所有偏導數在某點附近連續,則函數在該點可微(即 $C^1$ 蘊含可微)。

Hessian 與二階理論。 把梯度再微分一次,得到二階偏導數構成的 Hessian 矩陣

$$ H f = \begin{pmatrix} f_{xx} & f_{xy} \\ f_{yx} & f_{yy} \end{pmatrix}. $$

由 Clairaut 定理,在連續條件下 $Hf$ 對稱。它在臨界點($\nabla f = \mathbf{0}$)的判別中扮演單變數二階導數的角色:$Hf$ 正定對應局部極小、負定對應局部極大、不定(有正有負特徵值)對應鞍點(saddle point)。在最佳化理論中,Hessian 的條件數(最大與最小特徵值之比)決定了梯度下降的收斂速度——這就是為什麼深度學習研究關心損失曲面的幾何。

重積分作為測度論積分。 Riemann 式的重積分有其極限:對奇異或高維區域常常力不從心。研究所的 Lebesgue 積分理論把「累加」奠基於測度(measure)之上,使 Fubini 定理在 $\sigma$-有限測度空間下獲得嚴格陳述(Fubini–Tonelli 定理),並能處理交換積分順序的合法性問題。雅可比變換公式則對應於測度論中的「變數變換定理」,把座標變換視為測度的推前(pushforward)。

通往向量微積分與微分形式。 梯度只是一階微分算子的開端。散度(divergence)、旋度(curl)與梯度共同構成向量場分析的基礎,而 Green 定理、Stokes 定理、散度定理把「區域上的積分」與「邊界上的積分」聯繫起來。在更高的觀點下,這些定理都是廣義 Stokes 定理 $\int_M d\omega = \int_{\partial M} \omega$ 的特例,其中 $\omega$ 是微分形式(differential form)。從這個高度回望,偏導、梯度、重積分不再是孤立的計算技巧,而是微分幾何與外微積分(exterior calculus)這座大廈的地基。對有志於數理、物理或機器學習理論的學習者,這正是值得繼續攀登的方向。

AI 共讀助教正在陪你讀:多變數微積分:偏導數、梯度與重積分
嗨!我是這篇文章的共讀助教,只根據〈多變數微積分:偏導數、梯度與重積分〉的內容回答。可以問我「解釋某段」「舉個例子」「出題考我」,或反白文中段落後點下方「解釋選取段落」。