超越對角化：Jordan 形、SVD 與譜定理

當矩陣無法對角化、甚至不是方陣時，廣義特徵向量、奇異值分解與偽逆如何接手，撐起研究所線性代數的脊椎。

進階 · 約 16 分鐘 ·#線性代數#奇異值分解#Jordan標準形#譜定理#最小平方

當矩陣無法對角化時，我們還能怎麼辦？

入門篇裡，我們學會了把一個方陣 $A$ 寫成 $A = PDP^{-1}$：找到特徵值（eigenvalue）排進對角矩陣 $D$，找到特徵向量（eigenvector）排成 $P$，於是矩陣的高次方、動態系統的長期行為都變得透明。對角化（diagonalization）像是一把萬能鑰匙。

但這把鑰匙有個致命前提：$A$ 必須有「足夠多」線性獨立的特徵向量。考慮這個看似無害的矩陣：

$$ A = \begin{pmatrix} 2 & 1 \\ 0 & 2 \end{pmatrix}. $$

它的特徵多項式是 $(\lambda - 2)^2$，唯一特徵值 $\lambda = 2$ 重根。解 $(A - 2I)\mathbf{v} = \mathbf{0}$，你會發現特徵空間只有一維——只能湊出一個線性獨立特徵向量，但我們需要兩個才能組成 $P$。這個矩陣不可對角化（non-diagonalizable）。

更糟的是，許多現實裡的矩陣根本不是方陣，談「特徵值」毫無意義：一張 $1000 \times 50$ 的資料表、一個從三維投影到二維的相機矩陣。入門篇的工具在這裡集體失效。

這篇進階篇要回答的就是：當對角化崩潰，我們靠什麼理解一個線性變換？ 答案藏在三個更深的結構裡——Jordan 標準形、奇異值分解、與偽逆。它們共同構成研究所線性代數的脊椎。

$線性代數進階概念示意圖$

代數重數與幾何重數：對角化失敗的根源

要理解失敗，先要量化失敗的程度。對每個特徵值 $\lambda$，我們定義兩個數：

代數重數（algebraic multiplicity） $m_a(\lambda)$：$\lambda$ 在特徵多項式 $\det(A - \lambda I)$ 中作為根的重數。
幾何重數（geometric multiplicity） $m_g(\lambda)$：特徵空間 $\ker(A - \lambda I)$ 的維數，也就是該特徵值對應的線性獨立特徵向量個數。

一條普遍成立的不等式是：

$$ 1 \le m_g(\lambda) \le m_a(\lambda). $$

對角化的充要條件正是：對每個特徵值，$m_g(\lambda) = m_a(\lambda)$。當某個 $\lambda$ 出現 $m_g(\lambda) < m_a(\lambda)$，缺的特徵向量就「補不齊」，$P$ 湊不出可逆矩陣。前面的 $A = \begin{pmatrix} 2 & 1 \\ 0 & 2\end{pmatrix}$ 就是 $m_a = 2$ 但 $m_g = 1$ 的典型「虧損矩陣」（defective matrix）。

這裡藏著一個常見迷思：重根不代表不可對角化。單位矩陣的倍數 $2I = \begin{pmatrix} 2 & 0 \\ 0 & 2\end{pmatrix}$ 同樣有重根 $\lambda = 2$，但它的特徵空間是整個 $\mathbb{R}^2$，$m_g = m_a = 2$，本身就已經是對角矩陣。決定性的差別永遠是幾何重數，不是代數重數。

Jordan 標準形：對角化的最近替身

既然無法對角化，退而求其次：我們能否把 $A$ 化成「幾乎對角」的最簡形式？這就是 Jordan 標準形（Jordan canonical form）。

任何複數方陣 $A$ 都相似於一個分塊對角矩陣 $J = P^{-1}AP$，每個區塊形如：

$$ J_k(\lambda) = \begin{pmatrix} \lambda & 1 & & \\ & \lambda & \ddots & \\ & & \ddots & 1 \\ & & & \lambda \end{pmatrix}_{k \times k}. $$

對角線是特徵值，緊鄰對角線的上方是一排 $1$。當所有區塊都是 $1 \times 1$（沒有那排 $1$），$J$ 就退化成對角矩陣——對角化只是 Jordan 形的特例。

那排 $1$ 從哪來？關鍵概念是廣義特徵向量（generalized eigenvector）。普通特徵向量滿足 $(A - \lambda I)\mathbf{v} = \mathbf{0}$；廣義特徵向量則滿足 $(A - \lambda I)^k \mathbf{v} = \mathbf{0}$（某個 $k \ge 1$）但 $(A - \lambda I)^{k-1}\mathbf{v} \ne \mathbf{0}$。這些向量串成一條「Jordan 鏈」：

$$ \mathbf{v}_k \xrightarrow{A - \lambda I} \mathbf{v}_{k-1} \xrightarrow{A - \lambda I} \cdots \xrightarrow{A - \lambda I} \mathbf{v}_1 \xrightarrow{A - \lambda I} \mathbf{0}. $$

鏈尾 $\mathbf{v}_1$ 是真正的特徵向量；其餘是被「拉差一階」的廣義特徵向量。每條鏈對應一個 Jordan 區塊。

看一個例子

回到 $A = \begin{pmatrix} 2 & 1 \\ 0 & 2\end{pmatrix}$。特徵值 $\lambda = 2$，普通特徵向量解 $(A - 2I)\mathbf{v} = \begin{pmatrix} 0 & 1 \\ 0 & 0\end{pmatrix}\mathbf{v} = \mathbf{0}$，得 $\mathbf{v}_1 = \begin{pmatrix} 1 \\ 0\end{pmatrix}$。

只有一個特徵向量，所以要找廣義特徵向量 $\mathbf{v}_2$，滿足 $(A - 2I)\mathbf{v}_2 = \mathbf{v}_1$：

$$ \begin{pmatrix} 0 & 1 \\ 0 & 0\end{pmatrix}\begin{pmatrix} x \\ y\end{pmatrix} = \begin{pmatrix} 1 \\ 0\end{pmatrix} \;\Rightarrow\; y = 1, \quad \mathbf{v}_2 = \begin{pmatrix} 0 \\ 1\end{pmatrix}. $$

取 $P = \begin{pmatrix} \mathbf{v}_1 & \mathbf{v}_2\end{pmatrix} = \begin{pmatrix} 1 & 0 \\ 0 & 1\end{pmatrix} = I$，於是 $J = P^{-1}AP = A$——它本身就已是一個 $2\times 2$ 的 Jordan 區塊。這正說明了 $A$ 是「最不可對角化」的二階矩陣。

Jordan 形最實際的用途之一是計算矩陣指數 $e^{At}$（線性微分方程組 $\dot{\mathbf{x}} = A\mathbf{x}$ 的解）。對單一 Jordan 區塊 $J_k(\lambda)$，

$$ e^{J_k(\lambda)t} = e^{\lambda t}\begin{pmatrix} 1 & t & \frac{t^2}{2!} & \cdots & \frac{t^{k-1}}{(k-1)!} \\ & 1 & t & \cdots & \frac{t^{k-2}}{(k-2)!} \\ & & \ddots & & \vdots \\ & & & 1 & t \\ & & & & 1 \end{pmatrix}. $$

注意那些 $t$ 的多項式項——它們正是「臨界阻尼」「重根模態」這類物理現象裡，解出現 $t e^{\lambda t}$ 形式的數學根源。對角化的世界裡只有純指數，是 Jordan 結構讓多項式因子登場。

奇異值分解：所有矩陣都能「對角化」

Jordan 形解決了非對角化的方陣，但對長方形矩陣仍無能為力。真正的萬用工具是 奇異值分解（Singular Value Decomposition, SVD）：

任何實矩陣 $A \in \mathbb{R}^{m\times n}$ 都能分解為

$$ A = U\Sigma V^{\mathsf{T}}, $$

其中 $U \in \mathbb{R}^{m\times m}$ 與 $V \in \mathbb{R}^{n\times n}$ 都是正交矩陣（$U^{\mathsf{T}}U = I$、$V^{\mathsf{T}}V = I$），$\Sigma \in \mathbb{R}^{m\times n}$ 是「對角」矩陣，對角線上是非負的奇異值（singular value） $\sigma_1 \ge \sigma_2 \ge \cdots \ge 0$。

SVD 的幾何意義極為乾淨：任何線性變換都可拆成「旋轉 → 沿座標軸縮放 → 再旋轉」三步。$V^{\mathsf{T}}$ 把輸入空間轉個方向，$\Sigma$ 沿各主軸拉伸或壓縮，$U$ 再轉到輸出空間。再怪的矩陣，本質上都只是換了基底下的縮放。

SVD 與特徵值的關係很直接：$\sigma_i$ 是 $A^{\mathsf{T}}A$（對稱半正定）特徵值的平方根，$V$ 的各行是 $A^{\mathsf{T}}A$ 的特徵向量，$U$ 的各行是 $AA^{\mathsf{T}}$ 的特徵向量。這也解釋了為何 SVD 永遠存在——$A^{\mathsf{T}}A$ 必然對稱，而對稱矩陣必可正交對角化（這就是下面要談的譜定理）。

動手試試

求 $A = \begin{pmatrix} 1 & 1 \\ 0 & 1\end{pmatrix}$ 的奇異值。先算

$$ A^{\mathsf{T}}A = \begin{pmatrix} 1 & 0 \\ 1 & 1\end{pmatrix}\begin{pmatrix} 1 & 1 \\ 0 & 1\end{pmatrix} = \begin{pmatrix} 1 & 1 \\ 1 & 2\end{pmatrix}. $$

其特徵值由 $\det(A^{\mathsf{T}}A - \lambda I) = (1-\lambda)(2-\lambda) - 1 = \lambda^2 - 3\lambda + 1 = 0$ 給出：

$$ \lambda = \frac{3 \pm \sqrt{5}}{2}. $$

於是奇異值為

$$ \sigma_1 = \sqrt{\tfrac{3+\sqrt{5}}{2}} \approx 1.618, \qquad \sigma_2 = \sqrt{\tfrac{3-\sqrt{5}}{2}} \approx 0.618. $$

有趣的是 $\sigma_1\sigma_2 = \sqrt{\lambda_1\lambda_2} = \sqrt{1} = 1 = |\det A|$——奇異值的乘積等於行列式的絕對值，因為正交矩陣不改變體積。同時 $\sigma_1/\sigma_2 \approx 2.618$ 就是這個矩陣的條件數（condition number） $\kappa(A) = \sigma_{\max}/\sigma_{\min}$，它衡量解線性方程組時誤差被放大的程度。對角化從來給不了你這個數字，但它在數值計算裡至關重要。

譜定理：對稱的世界最美好

前面 SVD 的存在性依賴一個事實：對稱矩陣總是可以正交對角化。這就是 譜定理（Spectral Theorem），是整個進階線性代數最重要的結果之一。

若 $A \in \mathbb{R}^{n\times n}$ 滿足 $A = A^{\mathsf{T}}$，則存在正交矩陣 $Q$ 與實對角矩陣 $D$，使 $A = QDQ^{\mathsf{T}}$。

它保證了三件事，每一件都救了我們前面遇到的麻煩：

特徵值全為實數（對稱矩陣不會出現複數特徵值）。
永遠可對角化（不會有虧損，$m_g = m_a$ 恆成立，沒有 Jordan 區塊）。
特徵向量可取為彼此正交（$P$ 不只可逆，還能取成正交矩陣 $Q$，於是 $Q^{-1} = Q^{\mathsf{T}}$，計算極省）。

為什麼對稱性帶來這麼大的好處？關鍵在於「不同特徵值的特徵向量自動正交」。設 $A\mathbf{u} = \lambda\mathbf{u}$、$A\mathbf{v} = \mu\mathbf{v}$，且 $\lambda \ne \mu$。利用 $A = A^{\mathsf{T}}$：

$$ \lambda\,(\mathbf{u}\cdot\mathbf{v}) = (A\mathbf{u})\cdot\mathbf{v} = \mathbf{u}\cdot(A^{\mathsf{T}}\mathbf{v}) = \mathbf{u}\cdot(A\mathbf{v}) = \mu\,(\mathbf{u}\cdot\mathbf{v}). $$

整理得 $(\lambda - \mu)(\mathbf{u}\cdot\mathbf{v}) = 0$。既然 $\lambda \ne \mu$，必有 $\mathbf{u}\cdot\mathbf{v} = 0$。短短三行就證出正交性——這是對稱結構的禮物。

譜定理之所以無所不在，是因為「對稱半正定矩陣」是統計與機器學習的主角：共變異數矩陣（covariance matrix）、核矩陣（kernel matrix）、圖的拉普拉斯矩陣（graph Laplacian）全是對稱的。主成分分析（PCA）本質上就是對共變異數矩陣做譜分解，取最大特徵值對應的特徵向量當作主軸。

偽逆與最小平方：給沒有解的方程一個答案

最後回到一個非常實際的問題：方程組 $A\mathbf{x} = \mathbf{b}$ 在 $A$ 不是方陣、或無解、或有無窮多解時，怎麼辦？

當 $m > n$（方程多於未知數），$A\mathbf{x} = \mathbf{b}$ 通常無解。我們改求讓殘差最小的 $\hat{\mathbf{x}}$：

$$ \hat{\mathbf{x}} = \arg\min_{\mathbf{x}} \|A\mathbf{x} - \mathbf{b}\|^2. $$

這就是最小平方問題（least squares），也是所有線性迴歸的數學內核。它的解滿足正規方程（normal equations）$A^{\mathsf{T}}A\hat{\mathbf{x}} = A^{\mathsf{T}}\mathbf{b}$，幾何上等價於把 $\mathbf{b}$ 正交投影到 $A$ 的行空間（column space）上。

統一描述這一切的工具是 Moore–Penrose 偽逆（pseudoinverse） $A^{+}$。透過 SVD $A = U\Sigma V^{\mathsf{T}}$，偽逆定義為

$$ A^{+} = V\Sigma^{+}U^{\mathsf{T}}, $$

其中 $\Sigma^{+}$ 把每個非零奇異值 $\sigma_i$ 取倒數 $1/\sigma_i$、零奇異值保持為零、再轉置形狀。於是最小平方（兼最小範數）解可一行寫出：

$$ \hat{\mathbf{x}} = A^{+}\mathbf{b}. $$

當 $A$ 可逆時 $A^{+} = A^{-1}$，偽逆是逆的真正推廣。這裡也看見前面條件數的回馬槍：若最小奇異值 $\sigma_{\min}$ 接近零，$1/\sigma_{\min}$ 會爆炸性放大誤差——這正是病態（ill-conditioned）迴歸不穩定的根源，也是嶺迴歸（ridge regression）要加上正則化項把小奇異值「墊高」的理由。

重點回顧

對角化會失敗，根源是某特徵值的幾何重數小於代數重數（虧損矩陣）；重根本身不是問題，幾何重數才是判準。
Jordan 標準形是對角化的最近替身，用廣義特徵向量串成的 Jordan 鏈補齊缺口；它讓 $e^{At}$ 出現 $t$ 的多項式因子，解釋了重根模態。
SVD $A = U\Sigma V^{\mathsf{T}}$ 對任何矩陣都存在，把線性變換拆成「旋轉—縮放—旋轉」，奇異值是 $A^{\mathsf{T}}A$ 特徵值的平方根。
譜定理保證對稱矩陣必可正交對角化、特徵值全實、特徵向量互相正交，是 PCA 與一切共變異數分析的基石。
偽逆 $A^{+}$ 透過 SVD 統一了最小平方與最小範數解，把「逆矩陣」推廣到任意形狀的矩陣，並透過條件數揭示數值穩定性。

深入探討（研究所視角）

進一步往研究所走，這條「超越對角化」的主線會延伸出幾個更深的結構。

正規矩陣與譜定理的複數版本。 譜定理的真正一般形式不是針對對稱矩陣，而是針對正規矩陣（normal matrix）——滿足 $A A^{*} = A^{*}A$ 的複矩陣（$A^*$ 為共軛轉置）。正規矩陣可被么正矩陣（unitary matrix）對角化 $A = U\Lambda U^{*}$。Hermitian 矩陣（$A = A^*$，實對稱的複數推廣）、反 Hermitian、么正矩陣全是正規矩陣的特例。這個框架在量子力學裡是基本語言：可觀測量對應 Hermitian 算子，其實特徵值就是測量結果，正交特徵向量就是本徵態。

SVD 與低秩逼近——Eckart–Young 定理。 SVD 不只是分解，更是「最佳壓縮」的理論保證。取前 $k$ 個奇異值與對應向量構成 $A_k = \sum_{i=1}^{k}\sigma_i \mathbf{u}_i\mathbf{v}_i^{\mathsf{T}}$，Eckart–Young 定理斷言：在所有秩不超過 $k$ 的矩陣中，$A_k$ 是在 Frobenius 範數（與譜範數）下最接近 $A$ 的那一個，且誤差恰為 $\|A - A_k\|_F = \sqrt{\sum_{i>k}\sigma_i^2}$。這是影像壓縮、推薦系統矩陣補全（matrix completion）、與潛在語意分析（latent semantic analysis）背後的同一個定理。

擾動理論與譜的穩定性。 真實資料總有雜訊，於是我們關心：$A$ 受到微小擾動 $A + E$ 後，特徵值與特徵向量會跑多遠？對對稱矩陣，Weyl 不等式保證特徵值的擾動被 $\|E\|$ 控制住（$|\lambda_i(A+E) - \lambda_i(A)| \le \|E\|_2$），相當穩定；但特徵向量的穩定性卻取決於特徵值之間的間隙（spectral gap）——當兩個特徵值靠得很近，對應的特徵向量會對擾動極度敏感（Davis–Kahan $\sin\Theta$ 定理量化了這點）。這解釋了為何 PCA 在主成分解釋變異量接近時，主軸方向會變得不可靠。

從矩陣到算子。 最後，這一切在無窮維希爾伯特空間（Hilbert space）上有對應的譜理論。對緊算子（compact operator），譜定理幾乎原封不動成立；但對一般有界自伴算子，「特徵值」要被「譜測度（spectral measure）」取代，離散的特徵值譜會與連續譜並存。傅立葉變換、微分算子的本徵函數展開、量子系統的能譜，都是這套無窮維譜理論的化身。從一個無法對角化的 $2\times 2$ 矩陣出發，最終通向的是泛函分析的核心。

← 上一篇

線性代數：向量空間、特徵值與線性變換

--

5

32.3%

140.05

82.02%

62,201

AI 回覆桌面通知

聊天訊息通知

聲音通知

更多設定