超越對角化:Jordan 形、SVD 與譜定理
當矩陣無法對角化、甚至不是方陣時,廣義特徵向量、奇異值分解與偽逆如何接手,撐起研究所線性代數的脊椎。
當矩陣無法對角化時,我們還能怎麼辦?
入門篇裡,我們學會了把一個方陣 $A$ 寫成 $A = PDP^{-1}$:找到特徵值(eigenvalue)排進對角矩陣 $D$,找到特徵向量(eigenvector)排成 $P$,於是矩陣的高次方、動態系統的長期行為都變得透明。對角化(diagonalization)像是一把萬能鑰匙。
但這把鑰匙有個致命前提:$A$ 必須有「足夠多」線性獨立的特徵向量。考慮這個看似無害的矩陣:
$$ A = \begin{pmatrix} 2 & 1 \\ 0 & 2 \end{pmatrix}. $$
它的特徵多項式是 $(\lambda - 2)^2$,唯一特徵值 $\lambda = 2$ 重根。解 $(A - 2I)\mathbf{v} = \mathbf{0}$,你會發現特徵空間只有一維——只能湊出一個線性獨立特徵向量,但我們需要兩個才能組成 $P$。這個矩陣不可對角化(non-diagonalizable)。
更糟的是,許多現實裡的矩陣根本不是方陣,談「特徵值」毫無意義:一張 $1000 \times 50$ 的資料表、一個從三維投影到二維的相機矩陣。入門篇的工具在這裡集體失效。
這篇進階篇要回答的就是:當對角化崩潰,我們靠什麼理解一個線性變換? 答案藏在三個更深的結構裡——Jordan 標準形、奇異值分解、與偽逆。它們共同構成研究所線性代數的脊椎。

代數重數與幾何重數:對角化失敗的根源
要理解失敗,先要量化失敗的程度。對每個特徵值 $\lambda$,我們定義兩個數:
- 代數重數(algebraic multiplicity) $m_a(\lambda)$:$\lambda$ 在特徵多項式 $\det(A - \lambda I)$ 中作為根的重數。
- 幾何重數(geometric multiplicity) $m_g(\lambda)$:特徵空間 $\ker(A - \lambda I)$ 的維數,也就是該特徵值對應的線性獨立特徵向量個數。
一條普遍成立的不等式是:
$$ 1 \le m_g(\lambda) \le m_a(\lambda). $$
對角化的充要條件正是:對每個特徵值,$m_g(\lambda) = m_a(\lambda)$。當某個 $\lambda$ 出現 $m_g(\lambda) < m_a(\lambda)$,缺的特徵向量就「補不齊」,$P$ 湊不出可逆矩陣。前面的 $A = \begin{pmatrix} 2 & 1 \\ 0 & 2\end{pmatrix}$ 就是 $m_a = 2$ 但 $m_g = 1$ 的典型「虧損矩陣」(defective matrix)。
這裡藏著一個常見迷思:重根不代表不可對角化。單位矩陣的倍數 $2I = \begin{pmatrix} 2 & 0 \\ 0 & 2\end{pmatrix}$ 同樣有重根 $\lambda = 2$,但它的特徵空間是整個 $\mathbb{R}^2$,$m_g = m_a = 2$,本身就已經是對角矩陣。決定性的差別永遠是幾何重數,不是代數重數。
Jordan 標準形:對角化的最近替身
既然無法對角化,退而求其次:我們能否把 $A$ 化成「幾乎對角」的最簡形式?這就是 Jordan 標準形(Jordan canonical form)。
任何複數方陣 $A$ 都相似於一個分塊對角矩陣 $J = P^{-1}AP$,每個區塊形如:
$$ J_k(\lambda) = \begin{pmatrix} \lambda & 1 & & \\ & \lambda & \ddots & \\ & & \ddots & 1 \\ & & & \lambda \end{pmatrix}_{k \times k}. $$
對角線是特徵值,緊鄰對角線的上方是一排 $1$。當所有區塊都是 $1 \times 1$(沒有那排 $1$),$J$ 就退化成對角矩陣——對角化只是 Jordan 形的特例。
那排 $1$ 從哪來?關鍵概念是廣義特徵向量(generalized eigenvector)。普通特徵向量滿足 $(A - \lambda I)\mathbf{v} = \mathbf{0}$;廣義特徵向量則滿足 $(A - \lambda I)^k \mathbf{v} = \mathbf{0}$(某個 $k \ge 1$)但 $(A - \lambda I)^{k-1}\mathbf{v} \ne \mathbf{0}$。這些向量串成一條「Jordan 鏈」:
$$ \mathbf{v}_k \xrightarrow{A - \lambda I} \mathbf{v}_{k-1} \xrightarrow{A - \lambda I} \cdots \xrightarrow{A - \lambda I} \mathbf{v}_1 \xrightarrow{A - \lambda I} \mathbf{0}. $$
鏈尾 $\mathbf{v}_1$ 是真正的特徵向量;其餘是被「拉差一階」的廣義特徵向量。每條鏈對應一個 Jordan 區塊。
看一個例子
回到 $A = \begin{pmatrix} 2 & 1 \\ 0 & 2\end{pmatrix}$。特徵值 $\lambda = 2$,普通特徵向量解 $(A - 2I)\mathbf{v} = \begin{pmatrix} 0 & 1 \\ 0 & 0\end{pmatrix}\mathbf{v} = \mathbf{0}$,得 $\mathbf{v}_1 = \begin{pmatrix} 1 \\ 0\end{pmatrix}$。
只有一個特徵向量,所以要找廣義特徵向量 $\mathbf{v}_2$,滿足 $(A - 2I)\mathbf{v}_2 = \mathbf{v}_1$:
$$ \begin{pmatrix} 0 & 1 \\ 0 & 0\end{pmatrix}\begin{pmatrix} x \\ y\end{pmatrix} = \begin{pmatrix} 1 \\ 0\end{pmatrix} \;\Rightarrow\; y = 1, \quad \mathbf{v}_2 = \begin{pmatrix} 0 \\ 1\end{pmatrix}. $$
取 $P = \begin{pmatrix} \mathbf{v}_1 & \mathbf{v}_2\end{pmatrix} = \begin{pmatrix} 1 & 0 \\ 0 & 1\end{pmatrix} = I$,於是 $J = P^{-1}AP = A$——它本身就已是一個 $2\times 2$ 的 Jordan 區塊。這正說明了 $A$ 是「最不可對角化」的二階矩陣。
Jordan 形最實際的用途之一是計算矩陣指數 $e^{At}$(線性微分方程組 $\dot{\mathbf{x}} = A\mathbf{x}$ 的解)。對單一 Jordan 區塊 $J_k(\lambda)$,
$$ e^{J_k(\lambda)t} = e^{\lambda t}\begin{pmatrix} 1 & t & \frac{t^2}{2!} & \cdots & \frac{t^{k-1}}{(k-1)!} \\ & 1 & t & \cdots & \frac{t^{k-2}}{(k-2)!} \\ & & \ddots & & \vdots \\ & & & 1 & t \\ & & & & 1 \end{pmatrix}. $$
注意那些 $t$ 的多項式項——它們正是「臨界阻尼」「重根模態」這類物理現象裡,解出現 $t e^{\lambda t}$ 形式的數學根源。對角化的世界裡只有純指數,是 Jordan 結構讓多項式因子登場。
奇異值分解:所有矩陣都能「對角化」
Jordan 形解決了非對角化的方陣,但對長方形矩陣仍無能為力。真正的萬用工具是 奇異值分解(Singular Value Decomposition, SVD):
任何實矩陣 $A \in \mathbb{R}^{m\times n}$ 都能分解為
$$ A = U\Sigma V^{\mathsf{T}}, $$
其中 $U \in \mathbb{R}^{m\times m}$ 與 $V \in \mathbb{R}^{n\times n}$ 都是正交矩陣($U^{\mathsf{T}}U = I$、$V^{\mathsf{T}}V = I$),$\Sigma \in \mathbb{R}^{m\times n}$ 是「對角」矩陣,對角線上是非負的奇異值(singular value) $\sigma_1 \ge \sigma_2 \ge \cdots \ge 0$。
SVD 的幾何意義極為乾淨:任何線性變換都可拆成「旋轉 → 沿座標軸縮放 → 再旋轉」三步。$V^{\mathsf{T}}$ 把輸入空間轉個方向,$\Sigma$ 沿各主軸拉伸或壓縮,$U$ 再轉到輸出空間。再怪的矩陣,本質上都只是換了基底下的縮放。
SVD 與特徵值的關係很直接:$\sigma_i$ 是 $A^{\mathsf{T}}A$(對稱半正定)特徵值的平方根,$V$ 的各行是 $A^{\mathsf{T}}A$ 的特徵向量,$U$ 的各行是 $AA^{\mathsf{T}}$ 的特徵向量。這也解釋了為何 SVD 永遠存在——$A^{\mathsf{T}}A$ 必然對稱,而對稱矩陣必可正交對角化(這就是下面要談的譜定理)。
動手試試
求 $A = \begin{pmatrix} 1 & 1 \\ 0 & 1\end{pmatrix}$ 的奇異值。先算
$$ A^{\mathsf{T}}A = \begin{pmatrix} 1 & 0 \\ 1 & 1\end{pmatrix}\begin{pmatrix} 1 & 1 \\ 0 & 1\end{pmatrix} = \begin{pmatrix} 1 & 1 \\ 1 & 2\end{pmatrix}. $$
其特徵值由 $\det(A^{\mathsf{T}}A - \lambda I) = (1-\lambda)(2-\lambda) - 1 = \lambda^2 - 3\lambda + 1 = 0$ 給出:
$$ \lambda = \frac{3 \pm \sqrt{5}}{2}. $$
於是奇異值為
$$ \sigma_1 = \sqrt{\tfrac{3+\sqrt{5}}{2}} \approx 1.618, \qquad \sigma_2 = \sqrt{\tfrac{3-\sqrt{5}}{2}} \approx 0.618. $$
有趣的是 $\sigma_1\sigma_2 = \sqrt{\lambda_1\lambda_2} = \sqrt{1} = 1 = |\det A|$——奇異值的乘積等於行列式的絕對值,因為正交矩陣不改變體積。同時 $\sigma_1/\sigma_2 \approx 2.618$ 就是這個矩陣的條件數(condition number) $\kappa(A) = \sigma_{\max}/\sigma_{\min}$,它衡量解線性方程組時誤差被放大的程度。對角化從來給不了你這個數字,但它在數值計算裡至關重要。
譜定理:對稱的世界最美好
前面 SVD 的存在性依賴一個事實:對稱矩陣總是可以正交對角化。這就是 譜定理(Spectral Theorem),是整個進階線性代數最重要的結果之一。
若 $A \in \mathbb{R}^{n\times n}$ 滿足 $A = A^{\mathsf{T}}$,則存在正交矩陣 $Q$ 與實對角矩陣 $D$,使 $A = QDQ^{\mathsf{T}}$。
它保證了三件事,每一件都救了我們前面遇到的麻煩:
- 特徵值全為實數(對稱矩陣不會出現複數特徵值)。
- 永遠可對角化(不會有虧損,$m_g = m_a$ 恆成立,沒有 Jordan 區塊)。
- 特徵向量可取為彼此正交($P$ 不只可逆,還能取成正交矩陣 $Q$,於是 $Q^{-1} = Q^{\mathsf{T}}$,計算極省)。
為什麼對稱性帶來這麼大的好處?關鍵在於「不同特徵值的特徵向量自動正交」。設 $A\mathbf{u} = \lambda\mathbf{u}$、$A\mathbf{v} = \mu\mathbf{v}$,且 $\lambda \ne \mu$。利用 $A = A^{\mathsf{T}}$:
$$ \lambda\,(\mathbf{u}\cdot\mathbf{v}) = (A\mathbf{u})\cdot\mathbf{v} = \mathbf{u}\cdot(A^{\mathsf{T}}\mathbf{v}) = \mathbf{u}\cdot(A\mathbf{v}) = \mu\,(\mathbf{u}\cdot\mathbf{v}). $$
整理得 $(\lambda - \mu)(\mathbf{u}\cdot\mathbf{v}) = 0$。既然 $\lambda \ne \mu$,必有 $\mathbf{u}\cdot\mathbf{v} = 0$。短短三行就證出正交性——這是對稱結構的禮物。
譜定理之所以無所不在,是因為「對稱半正定矩陣」是統計與機器學習的主角:共變異數矩陣(covariance matrix)、核矩陣(kernel matrix)、圖的拉普拉斯矩陣(graph Laplacian)全是對稱的。主成分分析(PCA)本質上就是對共變異數矩陣做譜分解,取最大特徵值對應的特徵向量當作主軸。
偽逆與最小平方:給沒有解的方程一個答案
最後回到一個非常實際的問題:方程組 $A\mathbf{x} = \mathbf{b}$ 在 $A$ 不是方陣、或無解、或有無窮多解時,怎麼辦?
當 $m > n$(方程多於未知數),$A\mathbf{x} = \mathbf{b}$ 通常無解。我們改求讓殘差最小的 $\hat{\mathbf{x}}$:
$$ \hat{\mathbf{x}} = \arg\min_{\mathbf{x}} \|A\mathbf{x} - \mathbf{b}\|^2. $$
這就是最小平方問題(least squares),也是所有線性迴歸的數學內核。它的解滿足正規方程(normal equations)$A^{\mathsf{T}}A\hat{\mathbf{x}} = A^{\mathsf{T}}\mathbf{b}$,幾何上等價於把 $\mathbf{b}$ 正交投影到 $A$ 的行空間(column space)上。
統一描述這一切的工具是 Moore–Penrose 偽逆(pseudoinverse) $A^{+}$。透過 SVD $A = U\Sigma V^{\mathsf{T}}$,偽逆定義為
$$ A^{+} = V\Sigma^{+}U^{\mathsf{T}}, $$
其中 $\Sigma^{+}$ 把每個非零奇異值 $\sigma_i$ 取倒數 $1/\sigma_i$、零奇異值保持為零、再轉置形狀。於是最小平方(兼最小範數)解可一行寫出:
$$ \hat{\mathbf{x}} = A^{+}\mathbf{b}. $$
當 $A$ 可逆時 $A^{+} = A^{-1}$,偽逆是逆的真正推廣。這裡也看見前面條件數的回馬槍:若最小奇異值 $\sigma_{\min}$ 接近零,$1/\sigma_{\min}$ 會爆炸性放大誤差——這正是病態(ill-conditioned)迴歸不穩定的根源,也是嶺迴歸(ridge regression)要加上正則化項把小奇異值「墊高」的理由。
重點回顧
- 對角化會失敗,根源是某特徵值的幾何重數小於代數重數(虧損矩陣);重根本身不是問題,幾何重數才是判準。
- Jordan 標準形是對角化的最近替身,用廣義特徵向量串成的 Jordan 鏈補齊缺口;它讓 $e^{At}$ 出現 $t$ 的多項式因子,解釋了重根模態。
- SVD $A = U\Sigma V^{\mathsf{T}}$ 對任何矩陣都存在,把線性變換拆成「旋轉—縮放—旋轉」,奇異值是 $A^{\mathsf{T}}A$ 特徵值的平方根。
- 譜定理保證對稱矩陣必可正交對角化、特徵值全實、特徵向量互相正交,是 PCA 與一切共變異數分析的基石。
- 偽逆 $A^{+}$ 透過 SVD 統一了最小平方與最小範數解,把「逆矩陣」推廣到任意形狀的矩陣,並透過條件數揭示數值穩定性。
深入探討(研究所視角)
進一步往研究所走,這條「超越對角化」的主線會延伸出幾個更深的結構。
正規矩陣與譜定理的複數版本。 譜定理的真正一般形式不是針對對稱矩陣,而是針對正規矩陣(normal matrix)——滿足 $A A^{*} = A^{*}A$ 的複矩陣($A^*$ 為共軛轉置)。正規矩陣可被么正矩陣(unitary matrix)對角化 $A = U\Lambda U^{*}$。Hermitian 矩陣($A = A^*$,實對稱的複數推廣)、反 Hermitian、么正矩陣全是正規矩陣的特例。這個框架在量子力學裡是基本語言:可觀測量對應 Hermitian 算子,其實特徵值就是測量結果,正交特徵向量就是本徵態。
SVD 與低秩逼近——Eckart–Young 定理。 SVD 不只是分解,更是「最佳壓縮」的理論保證。取前 $k$ 個奇異值與對應向量構成 $A_k = \sum_{i=1}^{k}\sigma_i \mathbf{u}_i\mathbf{v}_i^{\mathsf{T}}$,Eckart–Young 定理斷言:在所有秩不超過 $k$ 的矩陣中,$A_k$ 是在 Frobenius 範數(與譜範數)下最接近 $A$ 的那一個,且誤差恰為 $\|A - A_k\|_F = \sqrt{\sum_{i>k}\sigma_i^2}$。這是影像壓縮、推薦系統矩陣補全(matrix completion)、與潛在語意分析(latent semantic analysis)背後的同一個定理。
擾動理論與譜的穩定性。 真實資料總有雜訊,於是我們關心:$A$ 受到微小擾動 $A + E$ 後,特徵值與特徵向量會跑多遠?對對稱矩陣,Weyl 不等式保證特徵值的擾動被 $\|E\|$ 控制住($|\lambda_i(A+E) - \lambda_i(A)| \le \|E\|_2$),相當穩定;但特徵向量的穩定性卻取決於特徵值之間的間隙(spectral gap)——當兩個特徵值靠得很近,對應的特徵向量會對擾動極度敏感(Davis–Kahan $\sin\Theta$ 定理量化了這點)。這解釋了為何 PCA 在主成分解釋變異量接近時,主軸方向會變得不可靠。
從矩陣到算子。 最後,這一切在無窮維希爾伯特空間(Hilbert space)上有對應的譜理論。對緊算子(compact operator),譜定理幾乎原封不動成立;但對一般有界自伴算子,「特徵值」要被「譜測度(spectral measure)」取代,離散的特徵值譜會與連續譜並存。傅立葉變換、微分算子的本徵函數展開、量子系統的能譜,都是這套無窮維譜理論的化身。從一個無法對角化的 $2\times 2$ 矩陣出發,最終通向的是泛函分析的核心。