因素分析與主成分分析：把眾多題目縮成少數潛在構念

從五十題人格問卷到五個分數，拆解 PCA 與 EFA 的世界觀差異、共同性、轉軸與因素分數不確定性

進階 · 約 16 分鐘 ·#因素分析#主成分分析#降維#心理計量#潛在變數#特徵值分解

五十題的人格問卷，為什麼只報你五個分數？

當你做完 Big Five 人格量表，回答了五十道題目，最後拿到的卻只有五個數字：開放性、盡責性、外向性、親和性、神經質。從五十維壓縮到五維，這中間發生了什麼？是誰決定「我喜歡參加派對」「我健談」「我在人群中充滿活力」這三題其實量的是同一件事？這個把「眾多觀測題目」收斂成「少數潛在構念」的數學工程，就是因素分析（Factor Analysis）與主成分分析（Principal Component Analysis, PCA）的核心任務。它們表面相似——都把高維資料壓低——但底層的世界觀截然不同：一個是純粹的幾何降維，一個是對「看不見的心理特質如何產生看得見的作答」提出因果模型。

因素分析與降維概念示意圖

PCA 與 EFA 的根本差異：降維 vs 潛在變數模型

PCA 的目標單純：在 $p$ 個變數構成的空間中，找一組新的正交座標軸，使得資料投影到前幾個軸上時保留最多的變異。它是對觀測資料的線性重組，第一主成分 $\text{PC}_1$ 就是讓投影變異最大化的方向。PCA 不問「為什麼這些變數會相關」，它只負責用更少的軸重新描述既有的散布。形式上，每個主成分是所有原始變數的加權和：

$$\text{PC}_k = \sum_{i=1}^{p} w_{ki}\, X_i.$$

因素分析（這裡指探索性因素分析，Exploratory Factor Analysis, EFA）的世界觀則相反。它假設有少數潛在因素（latent factors）$F_1, \dots, F_m$ 在背後驅動，每個觀測變數是這些因素的線性組合再加上自己的獨特誤差：

$$X_i = \lambda_{i1} F_1 + \lambda_{i2} F_2 + \dots + \lambda_{im} F_m + \varepsilon_i.$$

注意箭頭方向：PCA 是「變數 → 成分」（成分由變數算出來），EFA 是「因素 → 變數」（因素產生變數）。EFA 是一個測量模型，它主張「外向性」這個構念真實存在，它導致你在多道題目上給出相關的反應。$\lambda_{ij}$ 稱為因素負荷（factor loading），$\varepsilon_i$ 是只屬於第 $i$ 題的獨特因子（unique factor），包含測量誤差與該題特有的內容。

這個差異有實際後果。PCA 把每個變數的全部變異都納入分析（共變異矩陣的對角線是 1，對標準化資料而言），而 EFA 只解釋變數間共享的變異，把獨特變異 $\varepsilon_i$ 排除在因素之外。當題目間相關很高時兩者結果接近，但當有大量獨特變異（噪音）時，PCA 會把噪音也塞進成分裡，而 EFA 在模型上把它隔開。研究人格、智力、態度這類「相信背後有真實心理構念」的場景，EFA 才是對的工具；只想壓縮維度做後續運算（如壓縮影像、去除多重共線性），PCA 更直接。

共同性與獨特性：變異的分帳

EFA 對每個變數的變異做一次「分帳」。在標準化後（變異數為 1）的情況下：

$$1 = \underbrace{h_i^2}_{\text{共同性}} + \underbrace{\psi_i}_{\text{獨特性}}.$$

共同性（communality）$h_i^2$ 是第 $i$ 題的變異中，能被所有共同因素解釋的比例；在因素彼此正交時，它等於該題各因素負荷的平方和：

$$h_i^2 = \sum_{j=1}^{m} \lambda_{ij}^2.$$

剩下的 $\psi_i = 1 - h_i^2$ 是獨特性（uniqueness）。共同性高（如 0.7）代表這道題與其他題「同氣連枝」，被潛在構念強力解釋；共同性低（如 0.2）代表這題大半在量自己的東西，可能是寫得不好或測到不相干的內容，是刪題的候選。這個分帳正是 PCA 與 EFA 在矩陣層面的分水嶺：PCA 分解的是相關矩陣 $R$（對角線為 1），EFA 分解的是約化相關矩陣（reduced correlation matrix）$R - \Psi$，把對角線換成共同性估計。由於共同性事前未知，EFA 通常以迭代方式估計（先猜一個共同性、解出負荷、更新共同性、再解，直到收斂）。

因素負荷：構念的指紋

因素負荷 $\lambda_{ij}$ 是解讀因素分析結果的核心。在正交模型下，它等於第 $i$ 題與第 $j$ 因素的相關係數，範圍在 $-1$ 到 $1$。負荷大（絕對值 $> 0.4$ 或 $0.5$）表示該題對該因素「載重高」，是定義這個因素的主力題。我們命名一個因素，靠的就是看哪些題在它上面負荷高：若「我享受熱鬧聚會」「我主動結交朋友」「我喜歡成為注意焦點」三題都在 $F_1$ 上載重 0.7 以上，我們便把 $F_1$ 命名為「外向性」。

模型同時隱含了一個漂亮的恆等式。在 $m$ 個正交因素下，兩變數的相關可由負荷重建：

$$r_{ik} = \sum_{j=1}^{m} \lambda_{ij}\lambda_{kj}.$$

整個相關矩陣可寫成 $R \approx \Lambda\Lambda^{\top} + \Psi$，其中 $\Lambda$ 是 $p \times m$ 的負荷矩陣。因素分析的目標，就是找一個低秩的 $\Lambda\Lambda^{\top}$ 來逼近觀測相關矩陣的非對角部分——用 $m$ 個因素「解釋掉」所有題目間的相關。

特徵值與陡坡圖：該留幾個因素？

決定保留幾個因素，是分析中最關鍵也最主觀的一步。最常用的依據是特徵值（eigenvalue）。相關矩陣 $R$ 的第 $k$ 個特徵值 $\lambda_k^{(\text{eig})}$ 代表第 $k$ 個主軸方向所解釋的變異量；因為共有 $p$ 個標準化變數，總變異為 $p$，故第 $k$ 個成分解釋的變異比例為 $\lambda_k^{(\text{eig})}/p$。

兩個經典準則：

Kaiser 準則：保留特徵值 $> 1$ 的因素。理由是特徵值小於 1 的成分，解釋的變異還不如一個原始標準化變數，留它不划算。此法簡單但傾向高估因素數。
陡坡圖（scree plot）：把特徵值由大到小畫成折線，找「手肘」——曲線從陡降轉為平坦的轉折點，保留轉折前的因素。「scree」原指山腳堆積的碎石，陡坡之後的平坦碎石堆代表只反映噪音的成分。

現代更穩健的做法是平行分析（parallel analysis）：用相同維度的隨機資料重複模擬，得到「純噪音下」的特徵值分布，只保留真實特徵值超過模擬第 95 百分位的因素。這比 Kaiser 準則更不易過度抽取。

轉軸：讓因素變得可以命名

直接從矩陣分解出的初始負荷矩陣，數學上正確，解讀上卻常一團亂——許多題在多個因素上都有中等負荷，無法清楚歸屬。問題在於：因素的座標軸有旋轉不確定性。若 $\Lambda$ 能重建 $R$，那麼對任意正交矩陣 $T$，$\Lambda T$ 一樣能重建（因為 $(\Lambda T)(\Lambda T)^{\top} = \Lambda T T^{\top}\Lambda^{\top} = \Lambda\Lambda^{\top}$）。既然旋轉不改變模型對資料的擬合，我們便可自由旋轉座標軸，去找一個最容易解讀的版本。這就是轉軸（rotation）。

理想目標是 Thurstone 的「簡單結構」（simple structure）：每道題只在一個因素上負荷高、在其餘因素上接近零。常見兩類：

正交轉軸（varimax）：保持因素彼此不相關（座標軸維持 90 度）。varimax 最大化各因素負荷平方的變異，使負荷趨向「非常高或非常低」的兩極，方便命名。適合假設構念彼此獨立時。
斜交轉軸（oblimin、promax）：允許因素之間相關（座標軸可成非 90 度夾角）。心理構念往往本就相關（外向的人常也較開放），強迫正交反而失真。斜交轉軸會多輸出一個因素相關矩陣，並區分「樣式矩陣」（pattern matrix，淨效果）與「結構矩陣」（structure matrix，含相關）。

實務上，若理論認為因素該相關，先試斜交；若斜交後因素間相關都很低（如 $< 0.2$），再退回正交報告以求簡潔。

帶數字的小範例：解讀一個迷你負荷矩陣

假設一份 6 題量表抽出 2 個正交因素（varimax 後），負荷矩陣如下：

題目	$F_1$	$F_2$	共同性 $h_i^2$
Q1 我喜歡熱鬧聚會	0.78	0.12	$0.78^2+0.12^2=0.623$
Q2 我主動認識新朋友	0.71	0.08	$0.71^2+0.08^2=0.510$
Q3 我在人群中有活力	0.69	0.15	$0.69^2+0.15^2=0.499$
Q4 我做事有條理	0.10	0.74	$0.10^2+0.74^2=0.558$
Q5 我會提前規劃	0.05	0.80	$0.05^2+0.80^2=0.643$
Q6 我注重細節	0.18	0.66	$0.18^2+0.66^2=0.468$

判讀：Q1–Q3 在 $F_1$ 高、$F_2$ 近零，$F_1$ 命名為「外向性」；Q4–Q6 在 $F_2$ 高，$F_2$ 命名為「盡責性」。這就是漂亮的簡單結構。

再算因素解釋的變異。$F_1$ 解釋的變異是其負荷平方和：

$$\text{SS}_{F_1} = 0.78^2 + 0.71^2 + 0.69^2 + 0.10^2 + 0.05^2 + 0.18^2 = 1.638.$$

佔總變異（$=6$）的比例為 $1.638/6 \approx 27.3\%$。同理 $F_2$ 約解釋 $1.66/6 \approx 27.7\%$。兩因素合計約解釋 $55\%$ 的總變異——其餘 $45\%$ 是各題的獨特變異與誤差。Q6 共同性僅 0.468，是六題中最弱的指標，若要精簡量表，它是首要檢討對象。

EFA 與 CFA：探索 vs 驗證

到此談的都是探索性因素分析：我們不預設結構，讓資料告訴我們有幾個因素、哪題歸哪。但科學的另一半是驗證。驗證性因素分析（Confirmatory Factor Analysis, CFA）反過來：研究者事先根據理論指定模型——哪些題只受哪個因素影響、哪些負荷固定為零——再用資料檢驗這個指定的結構是否成立。

兩者的關鍵差異在於約束。EFA 中每題對每個因素都有負荷（全載入），CFA 中大部分交叉負荷被釘死為零。CFA 屬於結構方程模型（SEM）家族，會輸出整體適配指標（如 $\chi^2$、CFI、RMSEA、SRMR）來回答「我假設的結構，資料支不支持」。典型研究流程是：在一半樣本上做 EFA 探索結構，在另一半（或新樣本）上做 CFA 驗證——避免「用同一批資料既找答案又自我背書」的循環論證。

KMO 與 Bartlett：資料適不適合做因素分析？

不是任何資料都該硬做因素分析。若變數彼此幾乎不相關，根本沒有共享變異可萃取，因素分析會強行擠出無意義的因素。動手前應做兩項檢定：

Bartlett 球形檢定（Bartlett's test of sphericity）檢驗虛無假設「相關矩陣等於單位矩陣」（即所有變數互不相關）。若顯著（$p < 0.05$），代表至少存在一些相關，可以繼續。但此檢定對大樣本極敏感，幾乎一定顯著，故只是最低門檻。

KMO 取樣適切性測度（Kaiser–Meyer–Olkin measure）更實用。它比較變數間的相關與偏相關：

$$\text{KMO} = \frac{\sum_{i\neq k} r_{ik}^2}{\sum_{i\neq k} r_{ik}^2 + \sum_{i\neq k} a_{ik}^2},$$

其中 $r_{ik}$ 是簡單相關、$a_{ik}$ 是偏相關。直覺是：若變數的相關來自共同因素，控制其他變數後偏相關應該變小，分母第二項小，KMO 趨近 1。Kaiser 的判讀慣例：$> 0.9$ 極佳、$0.8$–$0.9$ 良好、$0.7$–$0.8$ 中等、$0.6$–$0.7$ 勉強、$< 0.6$ 不宜做因素分析。KMO 還能逐變數算，挑出不適合的題目剔除。

對應 Uedu 學習特質探索：少數維度刻畫多題作答

這整套機制正是 Uedu「學習特質探索」模組的數學骨幹。模組內三大量表都是因素分析方法論的直接產物：

Holland RIASEC 用 48 題，背後是 6 個因素（Realistic、Investigative、Artistic、Social、Enterprising、Conventional），每 8 題載入同一個職業興趣因素，最後報前 3 高維度（如 RIA）。
IPIP Big Five 用 50 題，對應 5 個正交人格因素，每維度 10 題，報五維度各自百分位——之所以「沒有單一綜合代碼」，正因為五因素是相對獨立的維度，硬要合成一個分數會抹掉構念結構。
OEJTS（MBTI 取向） 用 32 題，對應 4 個雙極維度（E–I、S–N、T–F、J–P），每維度 8 題，最後給 4 字母類型。

換句話說，學生作答的是幾十道具體題目，系統回報的卻是少數幾個潛在構念分數——這條「多題 → 少維」的壓縮路徑，每一步（用幾個因素、哪題載入哪維、如何計分）都奠基於因素分析的研究結論。理解本文，也就理解了這些量表報告卡背後的統計工程。

重點回顧

PCA 是降維、FA 是潛在變數模型：PCA 從變數算出成分（解釋全部變異），FA 假設因素產生變數（只解釋共享變異），箭頭方向相反。
共同性 $h_i^2$ 把每題變異分成「被共同因素解釋」與「獨特」兩帳；正交時等於負荷平方和，是刪題與評估指標品質的依據。
特徵值、陡坡圖、平行分析決定保留幾個因素；Kaiser（特徵值 $>1$）簡單但易高估，平行分析最穩健。
轉軸利用旋轉不確定性追求簡單結構：varimax 保持正交、oblimin 允許因素相關，目的都是讓因素可命名。
EFA 探索、CFA 驗證；動手前先用 KMO（$>0.6$）與 Bartlett 檢定確認資料適合。

深入探討（研究所視角）

因素分析與 PCA 的數學心臟都是特徵值分解。對 $p \times p$ 的（樣本）相關矩陣 $R$，做譜分解 $R = V \Lambda_{\text{eig}} V^{\top}$，其中 $V$ 的各欄是正交特徵向量、$\Lambda_{\text{eig}}$ 是特徵值對角矩陣。PCA 的第 $k$ 主成分方向就是第 $k$ 個特徵向量，解釋變異就是對應特徵值。更一般地，對中心化資料矩陣 $X_{n\times p}$ 做奇異值分解（SVD）$X = U S V^{\top}$，則 $X^{\top}X = V S^2 V^{\top}$，奇異值平方 $s_k^2$ 與共變異矩陣特徵值成正比——SVD 是計算 PCA 的數值穩健途徑（避免顯式構造可能病態的 $X^{\top}X$），也是 Eckart–Young 定理的舞台：截斷前 $m$ 個奇異值得到的低秩近似，在 Frobenius 範數下是最佳的秩-$m$ 逼近。這正是「保留前 $m$ 主成分」之所以「保留最多變異」的嚴格依據。

EFA 與 PCA 在矩陣上的差別可一句話講清：PCA 對 $R$ 分解，EFA 對 $R - \Psi$ 分解。把對角線從 1 改成共同性 $h_i^2 = 1 - \psi_i$，相當於先扣掉各變數的獨特變異，只對「共享結構」做低秩逼近。主軸因子法（principal axis factoring）便是迭代地估 $\Psi$、對 $R - \Psi$ 取特徵分解、更新 $\Psi$。更具統計效率的是最大概似因素分析：在多元常態假設 $X \sim \mathcal{N}(0, \Lambda\Lambda^{\top} + \Psi)$ 下，最小化擬合函數

$$F_{\text{ML}} = \log|\Sigma(\theta)| + \mathrm{tr}\!\big(S\,\Sigma(\theta)^{-1}\big) - \log|S| - p,$$

其中 $\Sigma(\theta) = \Lambda\Lambda^{\top} + \Psi$。MLE 的漸近常態性讓我們能對因素數做概似比檢定，並對負荷給出標準誤與信賴區間。

關於旋轉的不確定性，須區分兩個層次。其一是前述的旋轉不確定性：$\Lambda$ 只能定到一個正交（或斜交）變換 $T$，$\Lambda T$ 與 $\Lambda$ 對資料等價，因此「因素的方向」本質上不可由資料唯一決定，必須靠簡單結構準則或理論挑定——這是因素分析常被批評「主觀」的數學根源。其二是更深的因素分數不確定性（factor score indeterminacy）：即便負荷與獨特變異全部已知，潛在因素分數 $F$ 本身仍無法唯一決定。原因是模型 $X = \Lambda F + \varepsilon$ 中，未知的 $F$（$n \times m$）與 $\varepsilon$（$n \times p$）合起來的自由度超過觀測 $X$ 所能約束的，存在一整族都能完美符合模型的 $F$。實務上只能用「估計」近似，如 Thurstone 迴歸法 $\hat{F} = \Lambda^{\top} R^{-1} X$ 或 Bartlett 法，但這些只是諸多相容解中的特定選擇，不同方法給出的因素分數可能相關卻不相同。其不確定程度可由 $\rho^2 = \text{diag}(\Lambda^{\top} R^{-1}\Lambda)$ 衡量——當共同性低、因素少時尤其嚴重。這正是 PCA 與 FA 的又一根本對比：PCA 的成分分數 $\text{PC} = XW$ 由資料唯一決定（它就是觀測變數的確定線性組合），而 FA 的因素分數先天不可唯一觀測。理解這一點，才能恰當看待量表報告的因素分數：它是對潛在構念的合理估計，而非可直接讀取的真值，使用時應搭配信賴區間與測量誤差的意識，避免把「估計的構念位置」誤當成精確的個體標籤。

旋轉、簡單結構與多分相關：因素分析為何解不唯一

--

1

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings