Home
探索 Uedu
學生控制台
註冊會員/登入
研究知情同意中心
教師控制台
課程設定
支援與訊息
Uptime 數據

UeduGPTs

--

Jupyters

2

UG26 CISOSE26
臺北 AQI 26 · 臺中 AQI 19 · 臺南 AQI 18 · 高雄 AQI 17

AI 回覆桌面通知

AI 助教回覆完成時顯示桌面通知

聊天訊息通知

同學在討論區發送訊息時通知

聲音通知

每當有新通知時播放提示音

因素分析與降維

因素分析與主成分分析:把眾多題目縮成少數潛在構念

從五十題人格問卷到五個分數,拆解 PCA 與 EFA 的世界觀差異、共同性、轉軸與因素分數不確定性

五十題的人格問卷,為什麼只報你五個分數?

當你做完 Big Five 人格量表,回答了五十道題目,最後拿到的卻只有五個數字:開放性、盡責性、外向性、親和性、神經質。從五十維壓縮到五維,這中間發生了什麼?是誰決定「我喜歡參加派對」「我健談」「我在人群中充滿活力」這三題其實量的是同一件事?這個把「眾多觀測題目」收斂成「少數潛在構念」的數學工程,就是因素分析(Factor Analysis)與主成分分析(Principal Component Analysis, PCA)的核心任務。它們表面相似——都把高維資料壓低——但底層的世界觀截然不同:一個是純粹的幾何降維,一個是對「看不見的心理特質如何產生看得見的作答」提出因果模型。

因素分析與降維概念示意圖

PCA 與 EFA 的根本差異:降維 vs 潛在變數模型

PCA 的目標單純:在 $p$ 個變數構成的空間中,找一組新的正交座標軸,使得資料投影到前幾個軸上時保留最多的變異。它是對觀測資料的線性重組,第一主成分 $\text{PC}_1$ 就是讓投影變異最大化的方向。PCA 不問「為什麼這些變數會相關」,它只負責用更少的軸重新描述既有的散布。形式上,每個主成分是所有原始變數的加權和:

$$\text{PC}_k = \sum_{i=1}^{p} w_{ki}\, X_i.$$

因素分析(這裡指探索性因素分析,Exploratory Factor Analysis, EFA)的世界觀則相反。它假設有少數潛在因素(latent factors)$F_1, \dots, F_m$ 在背後驅動,每個觀測變數是這些因素的線性組合再加上自己的獨特誤差:

$$X_i = \lambda_{i1} F_1 + \lambda_{i2} F_2 + \dots + \lambda_{im} F_m + \varepsilon_i.$$

注意箭頭方向:PCA 是「變數 → 成分」(成分由變數算出來),EFA 是「因素 → 變數」(因素產生變數)。EFA 是一個測量模型,它主張「外向性」這個構念真實存在,它導致你在多道題目上給出相關的反應。$\lambda_{ij}$ 稱為因素負荷(factor loading),$\varepsilon_i$ 是只屬於第 $i$ 題的獨特因子(unique factor),包含測量誤差與該題特有的內容。

這個差異有實際後果。PCA 把每個變數的全部變異都納入分析(共變異矩陣的對角線是 1,對標準化資料而言),而 EFA 只解釋變數間共享的變異,把獨特變異 $\varepsilon_i$ 排除在因素之外。當題目間相關很高時兩者結果接近,但當有大量獨特變異(噪音)時,PCA 會把噪音也塞進成分裡,而 EFA 在模型上把它隔開。研究人格、智力、態度這類「相信背後有真實心理構念」的場景,EFA 才是對的工具;只想壓縮維度做後續運算(如壓縮影像、去除多重共線性),PCA 更直接。

共同性與獨特性:變異的分帳

EFA 對每個變數的變異做一次「分帳」。在標準化後(變異數為 1)的情況下:

$$1 = \underbrace{h_i^2}_{\text{共同性}} + \underbrace{\psi_i}_{\text{獨特性}}.$$

共同性(communality)$h_i^2$ 是第 $i$ 題的變異中,能被所有共同因素解釋的比例;在因素彼此正交時,它等於該題各因素負荷的平方和:

$$h_i^2 = \sum_{j=1}^{m} \lambda_{ij}^2.$$

剩下的 $\psi_i = 1 - h_i^2$ 是獨特性(uniqueness)。共同性高(如 0.7)代表這道題與其他題「同氣連枝」,被潛在構念強力解釋;共同性低(如 0.2)代表這題大半在量自己的東西,可能是寫得不好或測到不相干的內容,是刪題的候選。這個分帳正是 PCA 與 EFA 在矩陣層面的分水嶺:PCA 分解的是相關矩陣 $R$(對角線為 1),EFA 分解的是約化相關矩陣(reduced correlation matrix)$R - \Psi$,把對角線換成共同性估計。由於共同性事前未知,EFA 通常以迭代方式估計(先猜一個共同性、解出負荷、更新共同性、再解,直到收斂)。

因素負荷:構念的指紋

因素負荷 $\lambda_{ij}$ 是解讀因素分析結果的核心。在正交模型下,它等於第 $i$ 題與第 $j$ 因素的相關係數,範圍在 $-1$ 到 $1$。負荷大(絕對值 $> 0.4$ 或 $0.5$)表示該題對該因素「載重高」,是定義這個因素的主力題。我們命名一個因素,靠的就是看哪些題在它上面負荷高:若「我享受熱鬧聚會」「我主動結交朋友」「我喜歡成為注意焦點」三題都在 $F_1$ 上載重 0.7 以上,我們便把 $F_1$ 命名為「外向性」。

模型同時隱含了一個漂亮的恆等式。在 $m$ 個正交因素下,兩變數的相關可由負荷重建:

$$r_{ik} = \sum_{j=1}^{m} \lambda_{ij}\lambda_{kj}.$$

整個相關矩陣可寫成 $R \approx \Lambda\Lambda^{\top} + \Psi$,其中 $\Lambda$ 是 $p \times m$ 的負荷矩陣。因素分析的目標,就是找一個低秩的 $\Lambda\Lambda^{\top}$ 來逼近觀測相關矩陣的非對角部分——用 $m$ 個因素「解釋掉」所有題目間的相關。

特徵值與陡坡圖:該留幾個因素?

決定保留幾個因素,是分析中最關鍵也最主觀的一步。最常用的依據是特徵值(eigenvalue)。相關矩陣 $R$ 的第 $k$ 個特徵值 $\lambda_k^{(\text{eig})}$ 代表第 $k$ 個主軸方向所解釋的變異量;因為共有 $p$ 個標準化變數,總變異為 $p$,故第 $k$ 個成分解釋的變異比例為 $\lambda_k^{(\text{eig})}/p$。

兩個經典準則:

  • Kaiser 準則:保留特徵值 $> 1$ 的因素。理由是特徵值小於 1 的成分,解釋的變異還不如一個原始標準化變數,留它不划算。此法簡單但傾向高估因素數。
  • 陡坡圖(scree plot):把特徵值由大到小畫成折線,找「手肘」——曲線從陡降轉為平坦的轉折點,保留轉折前的因素。「scree」原指山腳堆積的碎石,陡坡之後的平坦碎石堆代表只反映噪音的成分。

現代更穩健的做法是平行分析(parallel analysis):用相同維度的隨機資料重複模擬,得到「純噪音下」的特徵值分布,只保留真實特徵值超過模擬第 95 百分位的因素。這比 Kaiser 準則更不易過度抽取。

轉軸:讓因素變得可以命名

直接從矩陣分解出的初始負荷矩陣,數學上正確,解讀上卻常一團亂——許多題在多個因素上都有中等負荷,無法清楚歸屬。問題在於:因素的座標軸有旋轉不確定性。若 $\Lambda$ 能重建 $R$,那麼對任意正交矩陣 $T$,$\Lambda T$ 一樣能重建(因為 $(\Lambda T)(\Lambda T)^{\top} = \Lambda T T^{\top}\Lambda^{\top} = \Lambda\Lambda^{\top}$)。既然旋轉不改變模型對資料的擬合,我們便可自由旋轉座標軸,去找一個最容易解讀的版本。這就是轉軸(rotation)。

理想目標是 Thurstone 的「簡單結構」(simple structure):每道題只在一個因素上負荷高、在其餘因素上接近零。常見兩類:

  • 正交轉軸(varimax):保持因素彼此不相關(座標軸維持 90 度)。varimax 最大化各因素負荷平方的變異,使負荷趨向「非常高或非常低」的兩極,方便命名。適合假設構念彼此獨立時。
  • 斜交轉軸(oblimin、promax):允許因素之間相關(座標軸可成非 90 度夾角)。心理構念往往本就相關(外向的人常也較開放),強迫正交反而失真。斜交轉軸會多輸出一個因素相關矩陣,並區分「樣式矩陣」(pattern matrix,淨效果)與「結構矩陣」(structure matrix,含相關)。

實務上,若理論認為因素該相關,先試斜交;若斜交後因素間相關都很低(如 $< 0.2$),再退回正交報告以求簡潔。

帶數字的小範例:解讀一個迷你負荷矩陣

假設一份 6 題量表抽出 2 個正交因素(varimax 後),負荷矩陣如下:

題目 $F_1$ $F_2$ 共同性 $h_i^2$
Q1 我喜歡熱鬧聚會 0.78 0.12 $0.78^2+0.12^2=0.623$
Q2 我主動認識新朋友 0.71 0.08 $0.71^2+0.08^2=0.510$
Q3 我在人群中有活力 0.69 0.15 $0.69^2+0.15^2=0.499$
Q4 我做事有條理 0.10 0.74 $0.10^2+0.74^2=0.558$
Q5 我會提前規劃 0.05 0.80 $0.05^2+0.80^2=0.643$
Q6 我注重細節 0.18 0.66 $0.18^2+0.66^2=0.468$

判讀:Q1–Q3 在 $F_1$ 高、$F_2$ 近零,$F_1$ 命名為「外向性」;Q4–Q6 在 $F_2$ 高,$F_2$ 命名為「盡責性」。這就是漂亮的簡單結構。

再算因素解釋的變異。$F_1$ 解釋的變異是其負荷平方和:

$$\text{SS}_{F_1} = 0.78^2 + 0.71^2 + 0.69^2 + 0.10^2 + 0.05^2 + 0.18^2 = 1.638.$$

佔總變異($=6$)的比例為 $1.638/6 \approx 27.3\%$。同理 $F_2$ 約解釋 $1.66/6 \approx 27.7\%$。兩因素合計約解釋 $55\%$ 的總變異——其餘 $45\%$ 是各題的獨特變異與誤差。Q6 共同性僅 0.468,是六題中最弱的指標,若要精簡量表,它是首要檢討對象。

EFA 與 CFA:探索 vs 驗證

到此談的都是探索性因素分析:我們不預設結構,讓資料告訴我們有幾個因素、哪題歸哪。但科學的另一半是驗證。驗證性因素分析(Confirmatory Factor Analysis, CFA)反過來:研究者事先根據理論指定模型——哪些題只受哪個因素影響、哪些負荷固定為零——再用資料檢驗這個指定的結構是否成立。

兩者的關鍵差異在於約束。EFA 中每題對每個因素都有負荷(全載入),CFA 中大部分交叉負荷被釘死為零。CFA 屬於結構方程模型(SEM)家族,會輸出整體適配指標(如 $\chi^2$、CFI、RMSEA、SRMR)來回答「我假設的結構,資料支不支持」。典型研究流程是:在一半樣本上做 EFA 探索結構,在另一半(或新樣本)上做 CFA 驗證——避免「用同一批資料既找答案又自我背書」的循環論證。

KMO 與 Bartlett:資料適不適合做因素分析?

不是任何資料都該硬做因素分析。若變數彼此幾乎不相關,根本沒有共享變異可萃取,因素分析會強行擠出無意義的因素。動手前應做兩項檢定:

Bartlett 球形檢定(Bartlett's test of sphericity)檢驗虛無假設「相關矩陣等於單位矩陣」(即所有變數互不相關)。若顯著($p < 0.05$),代表至少存在一些相關,可以繼續。但此檢定對大樣本極敏感,幾乎一定顯著,故只是最低門檻。

KMO 取樣適切性測度(Kaiser–Meyer–Olkin measure)更實用。它比較變數間的相關與偏相關:

$$\text{KMO} = \frac{\sum_{i\neq k} r_{ik}^2}{\sum_{i\neq k} r_{ik}^2 + \sum_{i\neq k} a_{ik}^2},$$

其中 $r_{ik}$ 是簡單相關、$a_{ik}$ 是偏相關。直覺是:若變數的相關來自共同因素,控制其他變數後偏相關應該變小,分母第二項小,KMO 趨近 1。Kaiser 的判讀慣例:$> 0.9$ 極佳、$0.8$–$0.9$ 良好、$0.7$–$0.8$ 中等、$0.6$–$0.7$ 勉強、$< 0.6$ 不宜做因素分析。KMO 還能逐變數算,挑出不適合的題目剔除。

對應 Uedu 學習特質探索:少數維度刻畫多題作答

這整套機制正是 Uedu「學習特質探索」模組的數學骨幹。模組內三大量表都是因素分析方法論的直接產物:

  • Holland RIASEC 用 48 題,背後是 6 個因素(Realistic、Investigative、Artistic、Social、Enterprising、Conventional),每 8 題載入同一個職業興趣因素,最後報前 3 高維度(如 RIA)。
  • IPIP Big Five 用 50 題,對應 5 個正交人格因素,每維度 10 題,報五維度各自百分位——之所以「沒有單一綜合代碼」,正因為五因素是相對獨立的維度,硬要合成一個分數會抹掉構念結構。
  • OEJTS(MBTI 取向) 用 32 題,對應 4 個雙極維度(E–I、S–N、T–F、J–P),每維度 8 題,最後給 4 字母類型。

換句話說,學生作答的是幾十道具體題目,系統回報的卻是少數幾個潛在構念分數——這條「多題 → 少維」的壓縮路徑,每一步(用幾個因素、哪題載入哪維、如何計分)都奠基於因素分析的研究結論。理解本文,也就理解了這些量表報告卡背後的統計工程。

重點回顧

  • PCA 是降維、FA 是潛在變數模型:PCA 從變數算出成分(解釋全部變異),FA 假設因素產生變數(只解釋共享變異),箭頭方向相反。
  • 共同性 $h_i^2$ 把每題變異分成「被共同因素解釋」與「獨特」兩帳;正交時等於負荷平方和,是刪題與評估指標品質的依據。
  • 特徵值、陡坡圖、平行分析決定保留幾個因素;Kaiser(特徵值 $>1$)簡單但易高估,平行分析最穩健。
  • 轉軸利用旋轉不確定性追求簡單結構:varimax 保持正交、oblimin 允許因素相關,目的都是讓因素可命名。
  • EFA 探索、CFA 驗證;動手前先用 KMO($>0.6$)與 Bartlett 檢定確認資料適合。

深入探討(研究所視角)

因素分析與 PCA 的數學心臟都是特徵值分解。對 $p \times p$ 的(樣本)相關矩陣 $R$,做譜分解 $R = V \Lambda_{\text{eig}} V^{\top}$,其中 $V$ 的各欄是正交特徵向量、$\Lambda_{\text{eig}}$ 是特徵值對角矩陣。PCA 的第 $k$ 主成分方向就是第 $k$ 個特徵向量,解釋變異就是對應特徵值。更一般地,對中心化資料矩陣 $X_{n\times p}$ 做奇異值分解(SVD)$X = U S V^{\top}$,則 $X^{\top}X = V S^2 V^{\top}$,奇異值平方 $s_k^2$ 與共變異矩陣特徵值成正比——SVD 是計算 PCA 的數值穩健途徑(避免顯式構造可能病態的 $X^{\top}X$),也是 Eckart–Young 定理的舞台:截斷前 $m$ 個奇異值得到的低秩近似,在 Frobenius 範數下是最佳的秩-$m$ 逼近。這正是「保留前 $m$ 主成分」之所以「保留最多變異」的嚴格依據。

EFA 與 PCA 在矩陣上的差別可一句話講清:PCA 對 $R$ 分解,EFA 對 $R - \Psi$ 分解。把對角線從 1 改成共同性 $h_i^2 = 1 - \psi_i$,相當於先扣掉各變數的獨特變異,只對「共享結構」做低秩逼近。主軸因子法(principal axis factoring)便是迭代地估 $\Psi$、對 $R - \Psi$ 取特徵分解、更新 $\Psi$。更具統計效率的是最大概似因素分析:在多元常態假設 $X \sim \mathcal{N}(0, \Lambda\Lambda^{\top} + \Psi)$ 下,最小化擬合函數

$$F_{\text{ML}} = \log|\Sigma(\theta)| + \mathrm{tr}\!\big(S\,\Sigma(\theta)^{-1}\big) - \log|S| - p,$$

其中 $\Sigma(\theta) = \Lambda\Lambda^{\top} + \Psi$。MLE 的漸近常態性讓我們能對因素數做概似比檢定,並對負荷給出標準誤與信賴區間。

關於旋轉的不確定性,須區分兩個層次。其一是前述的旋轉不確定性:$\Lambda$ 只能定到一個正交(或斜交)變換 $T$,$\Lambda T$ 與 $\Lambda$ 對資料等價,因此「因素的方向」本質上不可由資料唯一決定,必須靠簡單結構準則或理論挑定——這是因素分析常被批評「主觀」的數學根源。其二是更深的因素分數不確定性(factor score indeterminacy):即便負荷與獨特變異全部已知,潛在因素分數 $F$ 本身仍無法唯一決定。原因是模型 $X = \Lambda F + \varepsilon$ 中,未知的 $F$($n \times m$)與 $\varepsilon$($n \times p$)合起來的自由度超過觀測 $X$ 所能約束的,存在一整族都能完美符合模型的 $F$。實務上只能用「估計」近似,如 Thurstone 迴歸法 $\hat{F} = \Lambda^{\top} R^{-1} X$ 或 Bartlett 法,但這些只是諸多相容解中的特定選擇,不同方法給出的因素分數可能相關卻不相同。其不確定程度可由 $\rho^2 = \text{diag}(\Lambda^{\top} R^{-1}\Lambda)$ 衡量——當共同性低、因素少時尤其嚴重。這正是 PCA 與 FA 的又一根本對比:PCA 的成分分數 $\text{PC} = XW$ 由資料唯一決定(它就是觀測變數的確定線性組合),而 FA 的因素分數先天不可唯一觀測。理解這一點,才能恰當看待量表報告的因素分數:它是對潛在構念的合理估計,而非可直接讀取的真值,使用時應搭配信賴區間與測量誤差的意識,避免把「估計的構念位置」誤當成精確的個體標籤。

AI 共讀助教正在陪你讀:因素分析與主成分分析:把眾多題目縮成少數潛在構念
嗨!我是這篇文章的共讀助教,只根據〈因素分析與主成分分析:把眾多題目縮成少數潛在構念〉的內容回答。可以問我「解釋某段」「舉個例子」「出題考我」,或反白文中段落後點下方「解釋選取段落」。