先別急著算平均:認識你手上的資料型別
質性與量性、名目/順序/等距/等比——統計分析真正的第一步
先別急著算平均——你手上的「資料」到底是什麼?
想像你剛收完一份問卷,欄位裡塞滿了「血型」「滿意度(1~5)」「考試分數」「體重」。你打開試算表,正想對每一欄都按下「求平均」,這時請先停一秒:血型的平均是什麼?A 型加 B 型除以二等於 AB 型嗎? 顯然不行。
這正是統計學的第一課,也是最容易被跳過的一課:在做任何分析之前,你得先認識手上資料的「型別」。型別決定了哪些運算合法、該畫哪種圖、能用哪種統計檢定。搞錯型別,後面所有漂亮的數字都是空中樓閣。
我們把資料大致分成兩大家族:質性資料(qualitative,又稱類別資料) 與 量性資料(quantitative,又稱數值資料)。質性資料描述「類別」,例如性別、科系、是否通過;量性資料描述「數量」,例如身高、反應時間、答對題數。再往下細分,學界常用 Stevens(1946)提出的四個尺度層級:名目(nominal)、順序(ordinal)、等距(interval)、等比(ratio)。

四種測量尺度:從「只能分類」到「可以相除」
這四個尺度像是一座往上爬的階梯,每爬一階,資料能承載的數學意義就更豐富一層。
名目尺度(Nominal):只是給類別貼標籤,標籤之間沒有大小順序。血型(A、B、O、AB)、科系、學號都是。你可以數每一類有幾個(眾數、次數),但不能說「A 型大於 O 型」。即使我們用 1 代表男、2 代表女,那個數字也只是代號,做平均沒有意義。
順序尺度(Ordinal):有先後高低,但「間隔不等」。例如滿意度「非常不滿意、不滿意、普通、滿意、非常滿意」,或比賽的第 1、2、3 名。你知道「滿意」比「普通」好,但「普通到滿意」的差距,未必等於「滿意到非常滿意」的差距。所以順序尺度可以取中位數、看百分位,但嚴格說來不該直接算平均(雖然實務上常被當近似處理)。
等距尺度(Interval):間隔相等,可以做加減,但沒有絕對的零點。最經典的是攝氏溫度:20°C 到 30°C 的差,跟 30°C 到 40°C 的差一樣是 10 度。但「0°C」不代表「沒有溫度」,所以你不能說「40°C 是 20°C 的兩倍熱」。
等比尺度(Ratio):擁有等距的一切,外加一個有意義的絕對零點。身高、體重、反應時間、答對題數都是。0 公斤代表真的沒有重量,因此「6 公斤是 3 公斤的兩倍」是合法的陳述,乘除運算都成立。
一個快速判斷法:問自己三個問題——「能不能排順序?」「間隔是否相等?」「零點是否代表『無』?」三個都「是」,就是等比;只到第一個「是」,就是順序。
帶數字的小範例:型別決定你能算什麼
假設我們蒐集 5 位同學的資料:
| 同學 | 血型(名目) | 滿意度(順序) | 考試分數(等比) |
|---|---|---|---|
| 甲 | A | 4 | 80 |
| 乙 | O | 2 | 60 |
| 丙 | A | 5 | 90 |
| 丁 | B | 3 | 70 |
| 戊 | O | 4 | 75 |
血型只能算次數:A 型 2 人、O 型 2 人、B 型 1 人,眾數是 A 與 O(雙眾數)。算平均沒意義。
滿意度是順序尺度,適合看中位數。把分數排序為 2、3、4、4、5,中間第 3 個是 4,所以中位數為 4。
考試分數是等比尺度,可以放心算平均數與標準差。平均數:
$$\bar{x}=\frac{1}{n}\sum_{i=1}^{n} x_i=\frac{80+60+90+70+75}{5}=\frac{375}{5}=75$$
樣本標準差(先算各偏差平方:$5^2,\,15^2,\,15^2,\,5^2,\,0^2=25,225,225,25,0$,總和 500):
$$s=\sqrt{\frac{1}{n-1}\sum (x_i-\bar{x})^2}=\sqrt{\frac{500}{4}}=\sqrt{125}\approx 11.18$$
請注意:同樣是「數字」,分數能算平均與標準差,滿意度只宜取中位數,血型連加總都不行。型別,而非資料長得像不像數字,才是決定運算的關鍵。
為什麼這件事如此要命
第一,畫錯圖會誤導讀者。名目資料用長條圖或圓餅圖;等比的連續資料用直方圖或散布圖。若把血型畫成折線圖,等於暗示血型之間有連續趨勢,那是不存在的。
第二,選錯統計方法會得到無效結論。比較兩組的平均反應時間(等比)用 t 檢定;分析「科系」與「是否社團幹部」(兩個名目變數)的關聯則用卡方檢定。把名目變數硬塞進需要連續變數的迴歸,輸出的係數可能毫無意義。
第三,也是統計素養最該提醒的一點:別把「編碼用的數字」當成真的數量。問卷把「北部=1、中部=2、南部=3」只是方便輸入,若你對它取平均得到 1.8,宣稱「平均地區偏北」,這是赤裸裸的型別誤用。同理,相關不等於因果——就算冰淇淋銷量與溺水人數高度相關,也只是因為兩者都受「夏天氣溫」這個第三變數驅動,認清變數型別只是第一步,釐清因果還需要實驗設計與更謹慎的推論。
認識資料型別,是統計分析的「分流閘門」。先把資料放對家族,後面的平均數、檢定、模型才站得住腳。
深入探討(研究所視角)
在測量理論層次,Stevens 的四尺度其實對應到容許變換(admissible transformations) 的概念:一個統計量是否「有意義(meaningful)」,取決於它在該尺度的容許變換群下是否保持不變。名目尺度只容許一對一的重新命名(permutation),故只有眾數、次數等與標籤無關的量有意義;順序尺度容許任何保序的單調遞增變換 $f$($x<y \Rightarrow f(x)<f(y)$),因此中位數、百分位數不變,但平均數會被破壞。等距尺度容許正仿射變換 $x\mapsto ax+b\,(a>0)$,這正是攝氏華氏互換的形式,使得「差」有意義;等比尺度只容許正比例縮放 $x\mapsto ax$,零點固定,故比值與變異係數 $CV=s/\bar{x}$ 才有解釋力。這套「可測性—容許變換—統計量意義」的對應,是 Stevens 與後續 Luce、Suppes 在表徵測量理論(representational measurement theory) 中形式化的成果。
值得辯證的是,將順序尺度(如 Likert 量表)視為等距並施以參數方法,長期存在爭議。實務上常以 Spearman 等級相關 $\rho$ 或 Kendall's $\tau$ 處理順序資料以避免分配假設;現代心理計量則傾向以項目反應理論(IRT) 或多元順序羅吉斯(ordinal logistic / proportional-odds model)建模,把潛在連續特質 $\theta$ 與離散觀測切開,比直接平均更嚴謹。
型別還牽動估計量的選擇與性質。對連續等比資料,常以最大概似估計(MLE) $\hat{\theta}=\arg\max_\theta \prod_i f(x_i;\theta)$ 估參數,在常態模型下 MLE 與最小平方一致,並具不偏性、一致性、漸近有效性(達到 Cramér–Rao 下界)。但對類別資料,概似函數改建立於多項分配(multinomial)之上,卡方統計量 $\chi^2=\sum (O-E)^2/E$ 在 $H_0$ 下漸近服從自由度 $(r-1)(c-1)$ 的卡方分配——這裡的自由度正是格子數扣除被邊際機率估計約束掉的維度。效果量也因型別而異:連續組差用 Cohen's $d$,列聯表關聯用 Cramér's $V$ 或 $\phi$,不可混用。
最後連到機器學習:類別特徵需經 one-hot 或 target encoding 才能進入多數模型,順序特徵則保留序數編碼以利樹模型分裂;而把高基數名目變數硬編成整數送進線性模型,等同重蹈「拿代號當數量」的覆轍。從貝氏觀點看,型別決定了概似的函數族——高斯、白努利或多項——進而決定共軛先驗(如多項對應 Dirichlet),這再次說明:認清資料型別,是統計推論一切假設的起點,而非可有可無的前置作業。