線性代數：向量空間、特徵值與線性變換

從搜尋引擎的相似度比對，到 PCA 與量子力學的本徵態，一窺向量、變換與特徵值如何串成現代科學的通用語言。

大學基礎 · 約 15 分鐘 ·#線性代數#向量空間#特徵值#線性變換#對角化#SVD

為什麼 Google 知道你想找什麼？一切從「向量」開始

想像你在使用搜尋引擎。你輸入「線性代數入門」，幾毫秒後，系統就從數十億個網頁中挑出最相關的幾筆。它怎麼辦到的？答案出乎意料地優雅：每一個網頁、每一段文字，甚至每一張你拍的照片，在電腦眼中其實都是一串數字——也就是一個向量（vector）。而比較兩個東西「像不像」、把一張圖「旋轉」或「壓縮」、判斷一個推薦系統該推什麼，背後的數學語言幾乎都是同一套：線性代數（linear algebra）。

線性代數研究的核心，不是單一的數字，而是「一群數字如何一起變化」。當我們把向量、空間與變換串在一起看待時，會發現許多看似不相關的問題——影像壓縮、Google 的網頁排序、機器學習裡的主成分分析（PCA）——其實共用同一個骨架。這篇文章就是要帶你走過這個骨架的三根支柱：向量空間（vector space）、線性變換（linear transformation），以及把兩者連起來的關鍵——特徵值與特徵向量（eigenvalues and eigenvectors）。

$線性代數概念示意圖$

向量空間：不只是「箭頭」

很多人第一次接觸向量，是物理課裡的「有方向的箭頭」。這沒錯，但格局太小。線性代數的威力，來自於它把「向量」抽象成一個只要滿足某些運算規則的集合裡的元素。

具體來說，一個向量空間 $V$ 是一個集合，配上「加法」與「純量乘法」兩種運算，並且滿足封閉性、結合律、有零向量、有反元素等公理。最熟悉的例子是 $\mathbb{R}^n$，例如 $\mathbb{R}^3$ 裡的

$$ \mathbf{v} = \begin{pmatrix} 2 \\ -1 \\ 3 \end{pmatrix}. $$

但向量空間遠不止於此。所有次數不超過 2 的多項式 $\{a + bx + cx^2\}$ 是向量空間；所有 $2\times 2$ 矩陣是向量空間；連續函數 $f(x)$ 的集合也是向量空間。重點在於：只要運算規則一致，我們對 $\mathbb{R}^n$ 建立的所有直覺，都能搬到這些抽象物件上。 這正是數學「抽象」的回報。

線性組合、生成與線性獨立

給定一組向量 $\mathbf{v}_1, \dots, \mathbf{v}_k$，它們的線性組合（linear combination）是

$$ c_1 \mathbf{v}_1 + c_2 \mathbf{v}_2 + \cdots + c_k \mathbf{v}_k, \quad c_i \in \mathbb{R}. $$

所有可能線性組合所構成的集合，稱為這組向量的生成空間（span）。如果其中沒有任何一個向量是其他向量的線性組合（也就是沒有「多餘」的向量），我們說它們線性獨立（linearly independent）。

判斷線性獨立的標準方式是：方程式

$$ c_1 \mathbf{v}_1 + \cdots + c_k \mathbf{v}_k = \mathbf{0} $$

是否「只有」全為零的解 $c_1 = \cdots = c_k = 0$。若是，則線性獨立；若存在非零解，則線性相依。

一組既線性獨立、又能生成整個空間的向量，稱為這個空間的基底（basis）。基底的向量個數，就是這個空間的維度（dimension）。$\mathbb{R}^3$ 的維度是 3，多項式空間 $\{a+bx+cx^2\}$ 的維度也是 3——它們的基底分別是 $\{\mathbf{e}_1,\mathbf{e}_2,\mathbf{e}_3\}$ 與 $\{1, x, x^2\}$。一個常見迷思是「維度就是看起來有幾個格子」，但維度的本質是最少需要幾個獨立方向才能描述這個空間。

線性變換：把空間「搬動」的規則

有了空間，接下來的問題是：如何在空間之間搬動？一個從向量空間 $V$ 到 $W$ 的函數 $T$，如果滿足兩條規則：

$$ T(\mathbf{u} + \mathbf{v}) = T(\mathbf{u}) + T(\mathbf{v}), \qquad T(c\mathbf{v}) = c\,T(\mathbf{v}), $$

就稱為線性變換。直覺上，線性變換「保持加法與縮放」——它不會把直線變成曲線，不會移動原點，網格線變換後仍保持平行且等距。旋轉、鏡射、縮放、投影，全都是線性變換。

關鍵事實是：在選定基底後，每個線性變換都可以用一個矩陣來表示。 例如將平面上的向量逆時針旋轉 $\theta$ 角，對應的矩陣是

$$ R_\theta = \begin{pmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{pmatrix}. $$

於是「對向量做變換」就變成了「矩陣乘以向量」。矩陣乘法 $A\mathbf{x}$ 不再只是一堆機械的數字運算，而是「把 $\mathbf{x}$ 這個輸入，依照 $A$ 所定義的規則搬到新位置」。這個觀點是線性代數最重要的心理轉換：矩陣是動詞，不是名詞。

看一個例子：矩陣如何搬動一個向量

設變換矩陣與輸入向量為

$$ A = \begin{pmatrix} 2 & 1 \\ 0 & 3 \end{pmatrix}, \qquad \mathbf{x} = \begin{pmatrix} 1 \\ 2 \end{pmatrix}. $$

計算 $A\mathbf{x}$：

$$ A\mathbf{x} = \begin{pmatrix} 2\cdot 1 + 1\cdot 2 \\ 0\cdot 1 + 3\cdot 2 \end{pmatrix} = \begin{pmatrix} 4 \\ 6 \end{pmatrix}. $$

向量 $(1,2)$ 被搬到了 $(4,6)$。你可以把矩陣的兩個直行 $\binom{2}{0}$ 與 $\binom{1}{3}$ 想成「新的座標軸」：輸出 $(4,6)$ 恰好是 $1$ 倍第一行加上 $2$ 倍第二行。這就是「矩陣的行向量描述了基底向量被搬去哪裡」的具體含義。

特徵值與特徵向量：變換中「不變」的方向

當一個線性變換把空間攪動得天翻地覆時，有沒有某些方向特別「頑固」——變換後仍指向原方向，只是被拉長或壓縮？這樣的方向，就是特徵向量（eigenvector），而拉伸的倍率就是特徵值（eigenvalue）。

數學上，若存在非零向量 $\mathbf{v}$ 與純量 $\lambda$ 使得

$$ A\mathbf{v} = \lambda \mathbf{v}, $$

則 $\mathbf{v}$ 是 $A$ 的特徵向量，$\lambda$ 是對應的特徵值。注意右邊是「純量乘向量」，意思是輸出與輸入共線——方向不變，只變長短（$\lambda$ 為負時還會反向）。

要找出特徵值，把式子改寫成 $(A - \lambda I)\mathbf{v} = \mathbf{0}$。這個齊次方程要有非零解，係數矩陣必須是奇異的，亦即

$$ \det(A - \lambda I) = 0. $$

這個關於 $\lambda$ 的方程式稱為特徵方程（characteristic equation）。

動手試試：算出特徵值與特徵向量

仍用 $A = \begin{pmatrix} 2 & 1 \\ 0 & 3 \end{pmatrix}$。先寫出

$$ A - \lambda I = \begin{pmatrix} 2-\lambda & 1 \\ 0 & 3-\lambda \end{pmatrix}, $$

計算行列式：

$$ \det(A - \lambda I) = (2-\lambda)(3-\lambda) - (1)(0) = (2-\lambda)(3-\lambda). $$

令其為零，得到特徵值 $\lambda_1 = 2$、$\lambda_2 = 3$。

接著求 $\lambda_1 = 2$ 的特徵向量，解 $(A - 2I)\mathbf{v} = \mathbf{0}$：

$$ \begin{pmatrix} 0 & 1 \\ 0 & 1 \end{pmatrix} \begin{pmatrix} v_1 \\ v_2 \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \end{pmatrix} \;\Rightarrow\; v_2 = 0. $$

$v_1$ 自由，取 $\mathbf{v}_1 = \binom{1}{0}$。驗證：$A\binom{1}{0} = \binom{2}{0} = 2\binom{1}{0}$，正確。

對 $\lambda_2 = 3$，解 $(A - 3I)\mathbf{v} = \mathbf{0}$：

$$ \begin{pmatrix} -1 & 1 \\ 0 & 0 \end{pmatrix}\begin{pmatrix} v_1 \\ v_2 \end{pmatrix} = \mathbf{0} \;\Rightarrow\; v_1 = v_2. $$

取 $\mathbf{v}_2 = \binom{1}{1}$。驗證：$A\binom{1}{1} = \binom{3}{3} = 3\binom{1}{1}$，正確。

於是這個變換有兩個「不動方向」：沿 $\binom{1}{0}$ 拉長為 2 倍，沿 $\binom{1}{1}$ 拉長為 3 倍。

為什麼特徵值如此有用：對角化

當一個 $n\times n$ 矩陣有 $n$ 個線性獨立的特徵向量時，我們可以把它對角化（diagonalization）。把特徵向量排成矩陣 $P$ 的各行，特徵值排成對角矩陣 $D$，則

$$ A = P D P^{-1}. $$

這個分解的威力，在計算矩陣的高次方時展露無遺。因為

$$ A^k = P D^k P^{-1}, $$

而 $D^k$ 只需把對角線上每個 $\lambda_i$ 各自取 $k$ 次方即可——原本要做 $k$ 次矩陣乘法的繁瑣計算，瞬間化為幾個純量的次方。許多遞迴問題（如 Fibonacci 數列的閉合公式）、馬可夫鏈的長期穩態、微分方程系統的解，都靠這招迎刃而解。

從幾何看，對角化說的是：只要換到「特徵向量這組座標」來描述，原本複雜的變換就退化成『沿各軸獨立伸縮』。複雜性其實是「沒選對座標」造成的錯覺。

重點回顧

向量空間是滿足加法與純量乘法公理的集合；$\mathbb{R}^n$、多項式、矩陣、函數都可以是向量空間，因此 $\mathbb{R}^n$ 的直覺能廣泛遷移。
基底是既線性獨立又能生成空間的一組向量，其數量即維度——描述空間所需的最少獨立方向數。
線性變換保持加法與縮放；選定基底後，每個線性變換都對應一個矩陣，矩陣乘法就是「搬動向量」。
特徵向量是變換後方向不變的向量，特徵值 $\lambda$ 是其伸縮倍率，由特徵方程 $\det(A-\lambda I)=0$ 求得。
對角化 $A = PDP^{-1}$ 讓矩陣高次方、動態系統等問題大幅簡化，本質是「換到特徵向量座標」。

深入探討（研究所視角）

當你進入更高階的學習，會發現上述故事只是冰山一角，而「正確的座標選擇」這個主題會以更深刻的形式反覆出現。

並非所有矩陣都能對角化。 當特徵值的代數重數（algebraic multiplicity，特徵多項式的根的重數）大於幾何重數（geometric multiplicity，對應特徵空間的維度）時，矩陣是「缺陷的（defective）」。此時退而求其次的標準形是Jordan 標準形（Jordan canonical form），它在對角線上保留特徵值，並在超對角線補上 1，用來刻畫那些「差一點就能對角化」的結構。Jordan 形是理解線性算子在複數體上完整分類的關鍵。

對稱矩陣有特別美好的結構。 譜定理（Spectral Theorem）保證：任何實對稱矩陣（$A = A^\top$）必可被一組正交（orthonormal）特徵向量對角化，即 $A = Q\Lambda Q^\top$，其中 $Q$ 為正交矩陣、特徵值皆為實數。這條定理是無數應用的數學基礎，也是「為什麼協方差矩陣（covariance matrix）的特徵分解這麼可靠」的原因。

奇異值分解（Singular Value Decomposition, SVD）則把特徵分解的精神推廣到任意（甚至非方陣）矩陣：$A = U\Sigma V^\top$。它是主成分分析（PCA）、影像壓縮、推薦系統低秩近似、自然語言處理中潛在語意分析的共同數學核心。從理論上看，SVD 揭示了任何線性變換都可以拆解成「旋轉 → 沿軸伸縮 → 再旋轉」三步驟，這是線性代數最深刻的幾何洞見之一。

跨領域連結方面，特徵值問題在量子力學中是可觀測量的本徵態（能量本徵值即 Hamiltonian 算子的特徵值）；在圖論中，圖的鄰接矩陣與 Laplacian 矩陣的特徵值（譜）刻畫了連通性與群聚結構，催生了譜分群（spectral clustering）；在動態系統中，特徵值的實部符號決定平衡點的穩定性。當這些概念從有限維推廣到無窮維的函數空間時，矩陣就成了算子（operator），特徵值問題演化為微分方程的本徵值問題——這正是泛函分析（functional analysis）的起點。線性代數，因此不只是大學的一門課，而是貫穿整個現代數學與科學的通用語言。

超越對角化：Jordan 形、SVD 與譜定理

--

5

32.3%

140.05

82.02%

62,201

AI 回覆桌面通知

聊天訊息通知

聲音通知

更多設定