Home
探索 Uedu
學生控制台
註冊會員/登入
研究知情同意中心
教師控制台
課程設定
支援與訊息
Uptime 數據

UeduGPTs

--

Jupyters

2

UG26 CISOSE26
臺北 AQI 28 · 臺中 AQI 16 · 臺南 AQI 16 · 高雄 AQI 17

AI 回覆桌面通知

AI 助教回覆完成時顯示桌面通知

聊天訊息通知

同學在討論區發送訊息時通知

聲音通知

每當有新通知時播放提示音

資料與變數類型

先別急著算平均:認識你手上的資料型別

質性與量性、名目/順序/等距/等比——統計分析真正的第一步

先別急著算平均——你手上的「資料」到底是什麼?

想像你剛收完一份問卷,欄位裡塞滿了「血型」「滿意度(1~5)」「考試分數」「體重」。你打開試算表,正想對每一欄都按下「求平均」,這時請先停一秒:血型的平均是什麼?A 型加 B 型除以二等於 AB 型嗎? 顯然不行。

這正是統計學的第一課,也是最容易被跳過的一課:在做任何分析之前,你得先認識手上資料的「型別」。型別決定了哪些運算合法、該畫哪種圖、能用哪種統計檢定。搞錯型別,後面所有漂亮的數字都是空中樓閣。

我們把資料大致分成兩大家族:質性資料(qualitative,又稱類別資料)量性資料(quantitative,又稱數值資料)。質性資料描述「類別」,例如性別、科系、是否通過;量性資料描述「數量」,例如身高、反應時間、答對題數。再往下細分,學界常用 Stevens(1946)提出的四個尺度層級:名目(nominal)、順序(ordinal)、等距(interval)、等比(ratio)

資料與變數類型概念示意圖

四種測量尺度:從「只能分類」到「可以相除」

這四個尺度像是一座往上爬的階梯,每爬一階,資料能承載的數學意義就更豐富一層。

名目尺度(Nominal):只是給類別貼標籤,標籤之間沒有大小順序。血型(A、B、O、AB)、科系、學號都是。你可以數每一類有幾個(眾數、次數),但不能說「A 型大於 O 型」。即使我們用 1 代表男、2 代表女,那個數字也只是代號,做平均沒有意義。

順序尺度(Ordinal):有先後高低,但「間隔不等」。例如滿意度「非常不滿意、不滿意、普通、滿意、非常滿意」,或比賽的第 1、2、3 名。你知道「滿意」比「普通」好,但「普通到滿意」的差距,未必等於「滿意到非常滿意」的差距。所以順序尺度可以取中位數、看百分位,但嚴格說來不該直接算平均(雖然實務上常被當近似處理)。

等距尺度(Interval):間隔相等,可以做加減,但沒有絕對的零點。最經典的是攝氏溫度:20°C 到 30°C 的差,跟 30°C 到 40°C 的差一樣是 10 度。但「0°C」不代表「沒有溫度」,所以你不能說「40°C 是 20°C 的兩倍熱」。

等比尺度(Ratio):擁有等距的一切,外加一個有意義的絕對零點。身高、體重、反應時間、答對題數都是。0 公斤代表真的沒有重量,因此「6 公斤是 3 公斤的兩倍」是合法的陳述,乘除運算都成立。

一個快速判斷法:問自己三個問題——「能不能排順序?」「間隔是否相等?」「零點是否代表『無』?」三個都「是」,就是等比;只到第一個「是」,就是順序。

帶數字的小範例:型別決定你能算什麼

假設我們蒐集 5 位同學的資料:

同學 血型(名目) 滿意度(順序) 考試分數(等比)
A 4 80
O 2 60
A 5 90
B 3 70
O 4 75

血型只能算次數:A 型 2 人、O 型 2 人、B 型 1 人,眾數是 A 與 O(雙眾數)。算平均沒意義。

滿意度是順序尺度,適合看中位數。把分數排序為 2、3、4、4、5,中間第 3 個是 4,所以中位數為 4。

考試分數是等比尺度,可以放心算平均數與標準差。平均數:

$$\bar{x}=\frac{1}{n}\sum_{i=1}^{n} x_i=\frac{80+60+90+70+75}{5}=\frac{375}{5}=75$$

樣本標準差(先算各偏差平方:$5^2,\,15^2,\,15^2,\,5^2,\,0^2=25,225,225,25,0$,總和 500):

$$s=\sqrt{\frac{1}{n-1}\sum (x_i-\bar{x})^2}=\sqrt{\frac{500}{4}}=\sqrt{125}\approx 11.18$$

請注意:同樣是「數字」,分數能算平均與標準差,滿意度只宜取中位數,血型連加總都不行。型別,而非資料長得像不像數字,才是決定運算的關鍵。

為什麼這件事如此要命

第一,畫錯圖會誤導讀者。名目資料用長條圖或圓餅圖;等比的連續資料用直方圖或散布圖。若把血型畫成折線圖,等於暗示血型之間有連續趨勢,那是不存在的。

第二,選錯統計方法會得到無效結論。比較兩組的平均反應時間(等比)用 t 檢定;分析「科系」與「是否社團幹部」(兩個名目變數)的關聯則用卡方檢定。把名目變數硬塞進需要連續變數的迴歸,輸出的係數可能毫無意義。

第三,也是統計素養最該提醒的一點:別把「編碼用的數字」當成真的數量。問卷把「北部=1、中部=2、南部=3」只是方便輸入,若你對它取平均得到 1.8,宣稱「平均地區偏北」,這是赤裸裸的型別誤用。同理,相關不等於因果——就算冰淇淋銷量與溺水人數高度相關,也只是因為兩者都受「夏天氣溫」這個第三變數驅動,認清變數型別只是第一步,釐清因果還需要實驗設計與更謹慎的推論。

認識資料型別,是統計分析的「分流閘門」。先把資料放對家族,後面的平均數、檢定、模型才站得住腳。

深入探討(研究所視角)

在測量理論層次,Stevens 的四尺度其實對應到容許變換(admissible transformations) 的概念:一個統計量是否「有意義(meaningful)」,取決於它在該尺度的容許變換群下是否保持不變。名目尺度只容許一對一的重新命名(permutation),故只有眾數、次數等與標籤無關的量有意義;順序尺度容許任何保序的單調遞增變換 $f$($x<y \Rightarrow f(x)<f(y)$),因此中位數、百分位數不變,但平均數會被破壞。等距尺度容許正仿射變換 $x\mapsto ax+b\,(a>0)$,這正是攝氏華氏互換的形式,使得「差」有意義;等比尺度只容許正比例縮放 $x\mapsto ax$,零點固定,故比值與變異係數 $CV=s/\bar{x}$ 才有解釋力。這套「可測性—容許變換—統計量意義」的對應,是 Stevens 與後續 Luce、Suppes 在表徵測量理論(representational measurement theory) 中形式化的成果。

值得辯證的是,將順序尺度(如 Likert 量表)視為等距並施以參數方法,長期存在爭議。實務上常以 Spearman 等級相關 $\rho$ 或 Kendall's $\tau$ 處理順序資料以避免分配假設;現代心理計量則傾向以項目反應理論(IRT) 或多元順序羅吉斯(ordinal logistic / proportional-odds model)建模,把潛在連續特質 $\theta$ 與離散觀測切開,比直接平均更嚴謹。

型別還牽動估計量的選擇與性質。對連續等比資料,常以最大概似估計(MLE) $\hat{\theta}=\arg\max_\theta \prod_i f(x_i;\theta)$ 估參數,在常態模型下 MLE 與最小平方一致,並具不偏性、一致性、漸近有效性(達到 Cramér–Rao 下界)。但對類別資料,概似函數改建立於多項分配(multinomial)之上,卡方統計量 $\chi^2=\sum (O-E)^2/E$ 在 $H_0$ 下漸近服從自由度 $(r-1)(c-1)$ 的卡方分配——這裡的自由度正是格子數扣除被邊際機率估計約束掉的維度。效果量也因型別而異:連續組差用 Cohen's $d$,列聯表關聯用 Cramér's $V$ 或 $\phi$,不可混用。

最後連到機器學習:類別特徵需經 one-hot 或 target encoding 才能進入多數模型,順序特徵則保留序數編碼以利樹模型分裂;而把高基數名目變數硬編成整數送進線性模型,等同重蹈「拿代號當數量」的覆轍。從貝氏觀點看,型別決定了概似的函數族——高斯、白努利或多項——進而決定共軛先驗(如多項對應 Dirichlet),這再次說明:認清資料型別,是統計推論一切假設的起點,而非可有可無的前置作業。

AI 共讀助教正在陪你讀:先別急著算平均:認識你手上的資料型別
嗨!我是這篇文章的共讀助教,只根據〈先別急著算平均:認識你手上的資料型別〉的內容回答。可以問我「解釋某段」「舉個例子」「出題考我」,或反白文中段落後點下方「解釋選取段落」。