線性代數:向量空間、特徵值與線性變換
從搜尋引擎的相似度比對,到 PCA 與量子力學的本徵態,一窺向量、變換與特徵值如何串成現代科學的通用語言。
為什麼 Google 知道你想找什麼?一切從「向量」開始
想像你在使用搜尋引擎。你輸入「線性代數入門」,幾毫秒後,系統就從數十億個網頁中挑出最相關的幾筆。它怎麼辦到的?答案出乎意料地優雅:每一個網頁、每一段文字,甚至每一張你拍的照片,在電腦眼中其實都是一串數字——也就是一個向量(vector)。而比較兩個東西「像不像」、把一張圖「旋轉」或「壓縮」、判斷一個推薦系統該推什麼,背後的數學語言幾乎都是同一套:線性代數(linear algebra)。
線性代數研究的核心,不是單一的數字,而是「一群數字如何一起變化」。當我們把向量、空間與變換串在一起看待時,會發現許多看似不相關的問題——影像壓縮、Google 的網頁排序、機器學習裡的主成分分析(PCA)——其實共用同一個骨架。這篇文章就是要帶你走過這個骨架的三根支柱:向量空間(vector space)、線性變換(linear transformation),以及把兩者連起來的關鍵——特徵值與特徵向量(eigenvalues and eigenvectors)。

向量空間:不只是「箭頭」
很多人第一次接觸向量,是物理課裡的「有方向的箭頭」。這沒錯,但格局太小。線性代數的威力,來自於它把「向量」抽象成一個只要滿足某些運算規則的集合裡的元素。
具體來說,一個向量空間 $V$ 是一個集合,配上「加法」與「純量乘法」兩種運算,並且滿足封閉性、結合律、有零向量、有反元素等公理。最熟悉的例子是 $\mathbb{R}^n$,例如 $\mathbb{R}^3$ 裡的
$$ \mathbf{v} = \begin{pmatrix} 2 \\ -1 \\ 3 \end{pmatrix}. $$
但向量空間遠不止於此。所有次數不超過 2 的多項式 $\{a + bx + cx^2\}$ 是向量空間;所有 $2\times 2$ 矩陣是向量空間;連續函數 $f(x)$ 的集合也是向量空間。重點在於:只要運算規則一致,我們對 $\mathbb{R}^n$ 建立的所有直覺,都能搬到這些抽象物件上。 這正是數學「抽象」的回報。
線性組合、生成與線性獨立
給定一組向量 $\mathbf{v}_1, \dots, \mathbf{v}_k$,它們的線性組合(linear combination)是
$$ c_1 \mathbf{v}_1 + c_2 \mathbf{v}_2 + \cdots + c_k \mathbf{v}_k, \quad c_i \in \mathbb{R}. $$
所有可能線性組合所構成的集合,稱為這組向量的生成空間(span)。如果其中沒有任何一個向量是其他向量的線性組合(也就是沒有「多餘」的向量),我們說它們線性獨立(linearly independent)。
判斷線性獨立的標準方式是:方程式
$$ c_1 \mathbf{v}_1 + \cdots + c_k \mathbf{v}_k = \mathbf{0} $$
是否「只有」全為零的解 $c_1 = \cdots = c_k = 0$。若是,則線性獨立;若存在非零解,則線性相依。
一組既線性獨立、又能生成整個空間的向量,稱為這個空間的基底(basis)。基底的向量個數,就是這個空間的維度(dimension)。$\mathbb{R}^3$ 的維度是 3,多項式空間 $\{a+bx+cx^2\}$ 的維度也是 3——它們的基底分別是 $\{\mathbf{e}_1,\mathbf{e}_2,\mathbf{e}_3\}$ 與 $\{1, x, x^2\}$。一個常見迷思是「維度就是看起來有幾個格子」,但維度的本質是最少需要幾個獨立方向才能描述這個空間。
線性變換:把空間「搬動」的規則
有了空間,接下來的問題是:如何在空間之間搬動?一個從向量空間 $V$ 到 $W$ 的函數 $T$,如果滿足兩條規則:
$$ T(\mathbf{u} + \mathbf{v}) = T(\mathbf{u}) + T(\mathbf{v}), \qquad T(c\mathbf{v}) = c\,T(\mathbf{v}), $$
就稱為線性變換。直覺上,線性變換「保持加法與縮放」——它不會把直線變成曲線,不會移動原點,網格線變換後仍保持平行且等距。旋轉、鏡射、縮放、投影,全都是線性變換。
關鍵事實是:在選定基底後,每個線性變換都可以用一個矩陣來表示。 例如將平面上的向量逆時針旋轉 $\theta$ 角,對應的矩陣是
$$ R_\theta = \begin{pmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{pmatrix}. $$
於是「對向量做變換」就變成了「矩陣乘以向量」。矩陣乘法 $A\mathbf{x}$ 不再只是一堆機械的數字運算,而是「把 $\mathbf{x}$ 這個輸入,依照 $A$ 所定義的規則搬到新位置」。這個觀點是線性代數最重要的心理轉換:矩陣是動詞,不是名詞。
看一個例子:矩陣如何搬動一個向量
設變換矩陣與輸入向量為
$$ A = \begin{pmatrix} 2 & 1 \\ 0 & 3 \end{pmatrix}, \qquad \mathbf{x} = \begin{pmatrix} 1 \\ 2 \end{pmatrix}. $$
計算 $A\mathbf{x}$:
$$ A\mathbf{x} = \begin{pmatrix} 2\cdot 1 + 1\cdot 2 \\ 0\cdot 1 + 3\cdot 2 \end{pmatrix} = \begin{pmatrix} 4 \\ 6 \end{pmatrix}. $$
向量 $(1,2)$ 被搬到了 $(4,6)$。你可以把矩陣的兩個直行 $\binom{2}{0}$ 與 $\binom{1}{3}$ 想成「新的座標軸」:輸出 $(4,6)$ 恰好是 $1$ 倍第一行加上 $2$ 倍第二行。這就是「矩陣的行向量描述了基底向量被搬去哪裡」的具體含義。
特徵值與特徵向量:變換中「不變」的方向
當一個線性變換把空間攪動得天翻地覆時,有沒有某些方向特別「頑固」——變換後仍指向原方向,只是被拉長或壓縮?這樣的方向,就是特徵向量(eigenvector),而拉伸的倍率就是特徵值(eigenvalue)。
數學上,若存在非零向量 $\mathbf{v}$ 與純量 $\lambda$ 使得
$$ A\mathbf{v} = \lambda \mathbf{v}, $$
則 $\mathbf{v}$ 是 $A$ 的特徵向量,$\lambda$ 是對應的特徵值。注意右邊是「純量乘向量」,意思是輸出與輸入共線——方向不變,只變長短($\lambda$ 為負時還會反向)。
要找出特徵值,把式子改寫成 $(A - \lambda I)\mathbf{v} = \mathbf{0}$。這個齊次方程要有非零解,係數矩陣必須是奇異的,亦即
$$ \det(A - \lambda I) = 0. $$
這個關於 $\lambda$ 的方程式稱為特徵方程(characteristic equation)。
動手試試:算出特徵值與特徵向量
仍用 $A = \begin{pmatrix} 2 & 1 \\ 0 & 3 \end{pmatrix}$。先寫出
$$ A - \lambda I = \begin{pmatrix} 2-\lambda & 1 \\ 0 & 3-\lambda \end{pmatrix}, $$
計算行列式:
$$ \det(A - \lambda I) = (2-\lambda)(3-\lambda) - (1)(0) = (2-\lambda)(3-\lambda). $$
令其為零,得到特徵值 $\lambda_1 = 2$、$\lambda_2 = 3$。
接著求 $\lambda_1 = 2$ 的特徵向量,解 $(A - 2I)\mathbf{v} = \mathbf{0}$:
$$ \begin{pmatrix} 0 & 1 \\ 0 & 1 \end{pmatrix} \begin{pmatrix} v_1 \\ v_2 \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \end{pmatrix} \;\Rightarrow\; v_2 = 0. $$
$v_1$ 自由,取 $\mathbf{v}_1 = \binom{1}{0}$。驗證:$A\binom{1}{0} = \binom{2}{0} = 2\binom{1}{0}$,正確。
對 $\lambda_2 = 3$,解 $(A - 3I)\mathbf{v} = \mathbf{0}$:
$$ \begin{pmatrix} -1 & 1 \\ 0 & 0 \end{pmatrix}\begin{pmatrix} v_1 \\ v_2 \end{pmatrix} = \mathbf{0} \;\Rightarrow\; v_1 = v_2. $$
取 $\mathbf{v}_2 = \binom{1}{1}$。驗證:$A\binom{1}{1} = \binom{3}{3} = 3\binom{1}{1}$,正確。
於是這個變換有兩個「不動方向」:沿 $\binom{1}{0}$ 拉長為 2 倍,沿 $\binom{1}{1}$ 拉長為 3 倍。
為什麼特徵值如此有用:對角化
當一個 $n\times n$ 矩陣有 $n$ 個線性獨立的特徵向量時,我們可以把它對角化(diagonalization)。把特徵向量排成矩陣 $P$ 的各行,特徵值排成對角矩陣 $D$,則
$$ A = P D P^{-1}. $$
這個分解的威力,在計算矩陣的高次方時展露無遺。因為
$$ A^k = P D^k P^{-1}, $$
而 $D^k$ 只需把對角線上每個 $\lambda_i$ 各自取 $k$ 次方即可——原本要做 $k$ 次矩陣乘法的繁瑣計算,瞬間化為幾個純量的次方。許多遞迴問題(如 Fibonacci 數列的閉合公式)、馬可夫鏈的長期穩態、微分方程系統的解,都靠這招迎刃而解。
從幾何看,對角化說的是:只要換到「特徵向量這組座標」來描述,原本複雜的變換就退化成『沿各軸獨立伸縮』。複雜性其實是「沒選對座標」造成的錯覺。
重點回顧
- 向量空間是滿足加法與純量乘法公理的集合;$\mathbb{R}^n$、多項式、矩陣、函數都可以是向量空間,因此 $\mathbb{R}^n$ 的直覺能廣泛遷移。
- 基底是既線性獨立又能生成空間的一組向量,其數量即維度——描述空間所需的最少獨立方向數。
- 線性變換保持加法與縮放;選定基底後,每個線性變換都對應一個矩陣,矩陣乘法就是「搬動向量」。
- 特徵向量是變換後方向不變的向量,特徵值 $\lambda$ 是其伸縮倍率,由特徵方程 $\det(A-\lambda I)=0$ 求得。
- 對角化 $A = PDP^{-1}$ 讓矩陣高次方、動態系統等問題大幅簡化,本質是「換到特徵向量座標」。
深入探討(研究所視角)
當你進入更高階的學習,會發現上述故事只是冰山一角,而「正確的座標選擇」這個主題會以更深刻的形式反覆出現。
並非所有矩陣都能對角化。 當特徵值的代數重數(algebraic multiplicity,特徵多項式的根的重數)大於幾何重數(geometric multiplicity,對應特徵空間的維度)時,矩陣是「缺陷的(defective)」。此時退而求其次的標準形是Jordan 標準形(Jordan canonical form),它在對角線上保留特徵值,並在超對角線補上 1,用來刻畫那些「差一點就能對角化」的結構。Jordan 形是理解線性算子在複數體上完整分類的關鍵。
對稱矩陣有特別美好的結構。 譜定理(Spectral Theorem)保證:任何實對稱矩陣($A = A^\top$)必可被一組正交(orthonormal)特徵向量對角化,即 $A = Q\Lambda Q^\top$,其中 $Q$ 為正交矩陣、特徵值皆為實數。這條定理是無數應用的數學基礎,也是「為什麼協方差矩陣(covariance matrix)的特徵分解這麼可靠」的原因。
奇異值分解(Singular Value Decomposition, SVD)則把特徵分解的精神推廣到任意(甚至非方陣)矩陣:$A = U\Sigma V^\top$。它是主成分分析(PCA)、影像壓縮、推薦系統低秩近似、自然語言處理中潛在語意分析的共同數學核心。從理論上看,SVD 揭示了任何線性變換都可以拆解成「旋轉 → 沿軸伸縮 → 再旋轉」三步驟,這是線性代數最深刻的幾何洞見之一。
跨領域連結方面,特徵值問題在量子力學中是可觀測量的本徵態(能量本徵值即 Hamiltonian 算子的特徵值);在圖論中,圖的鄰接矩陣與 Laplacian 矩陣的特徵值(譜)刻畫了連通性與群聚結構,催生了譜分群(spectral clustering);在動態系統中,特徵值的實部符號決定平衡點的穩定性。當這些概念從有限維推廣到無窮維的函數空間時,矩陣就成了算子(operator),特徵值問題演化為微分方程的本徵值問題——這正是泛函分析(functional analysis)的起點。線性代數,因此不只是大學的一門課,而是貫穿整個現代數學與科學的通用語言。