Home
探索 Uedu
學生控制台
註冊會員/登入
研究知情同意中心
教師控制台
課程設定
支援與訊息
Uptime 數據

UeduGPTs

--

Jupyters

2

UG26 CISOSE26
臺北 AQI 26 · 臺中 AQI 19 · 臺南 AQI 18 · 高雄 AQI 17

AI 回覆桌面通知

AI 助教回覆完成時顯示桌面通知

聊天訊息通知

同學在討論區發送訊息時通知

聲音通知

每當有新通知時播放提示音

資料視覺化

讓資料自己說話:直方圖、箱型圖、散布圖的看圖學

三種基本圖表,幫你看見資料的形狀與關係,也教你別被圖騙了

為什麼我們需要「看見」資料

想像你手上有一份全班 40 位同學的數學成績。如果只看到一行平均分「73 分」,你其實對這個班一無所知:到底是大家都考 70 幾分,還是一半人滿分、一半人不及格?單一數字會把豐富的故事壓扁成一個點。

統計學家很早就明白這件事。有一個著名的例子叫「安斯庫姆四重奏」(Anscombe's quartet):四組資料的平均數、變異數、相關係數幾乎一模一樣,但畫成圖之後長相天差地遠——有的是直線、有的是曲線、有的根本是一個離群點在搗亂。這告訴我們:摘要統計量會騙人,圖會說真話。但反過來,圖也可能被刻意設計來誤導你。本文要帶你認識三種最基本、最常用的圖:直方圖、箱型圖、散布圖,並學會「讓資料說話」也「別被圖騙了」。

資料視覺化概念示意圖

直方圖:看見資料的「形狀」

直方圖(histogram)把連續資料切成若干區間(bin),數每個區間裡有幾筆資料,再用長條的高度表示。它回答的問題是:「資料集中在哪裡?散得開不開?是對稱還是偏一邊?」

用剛剛那 40 位同學的成績舉例。假設我們把成績每 10 分切一格:

  • 50–59 分:3 人
  • 60–69 分:8 人
  • 70–79 分:15 人
  • 80–89 分:10 人
  • 90–100 分:4 人

畫成直方圖,你會立刻看到一個「中間高、兩邊低」的鐘形輪廓,高峰落在 70 多分。這比「平均 73 分」資訊量大得多。

直方圖最容易被「組距」騙。 同一份資料,如果你用很寬的 bin(例如每 25 分一格),會把細節抹平,看起來很平滑;用很窄的 bin(每 2 分一格),又會變得鋸齒狀、充滿雜訊。沒有唯一正確答案,但有經驗法則。例如史特吉斯法則(Sturges' rule)建議的組數為

$$k = 1 + \log_2 n$$

當 $n = 40$ 時,$k = 1 + \log_2 40 \approx 1 + 5.32 = 6.32$,取約 6 組。這提醒我們:看直方圖時,要留意組距是不是被人為調整來放大或隱藏某種結論。

箱型圖:用五個數字摘要一群人

箱型圖(box plot)不畫每一筆資料,而是用「五數摘要」把分布壓縮成一個方塊加兩條鬍鬚:最小值、第一四分位數($Q_1$)、中位數($Q_2$)、第三四分位數($Q_3$)、最大值。

中間的方塊從 $Q_1$ 到 $Q_3$,涵蓋中間 50% 的資料,它的長度叫四分位距(IQR):

$$\text{IQR} = Q_3 - Q_1$$

箱型圖最大的優點是容易並排比較好幾群,而且能客觀標出離群值。常用規則是:任何超過 $Q_3 + 1.5 \times \text{IQR}$ 或低於 $Q_1 - 1.5 \times \text{IQR}$ 的點,就被標為可疑的離群值。

來算一次。假設某次小考 9 位同學的分數排序後是:

$$40,\ 55,\ 60,\ 62,\ 65,\ 68,\ 70,\ 75,\ 92$$

中位數是第 5 個數 $Q_2 = 65$。下半部 $\{40, 55, 60, 62\}$ 的中位數 $Q_1 = \frac{55+60}{2} = 57.5$;上半部 $\{68, 70, 75, 92\}$ 的中位數 $Q_3 = \frac{70+75}{2} = 72.5$。於是

$$\text{IQR} = 72.5 - 57.5 = 15.$$

上界 $= 72.5 + 1.5 \times 15 = 95$,下界 $= 57.5 - 1.5 \times 15 = 35$。92 分落在界內,沒有人被判為離群值——雖然 92 看起來「特別高」,但用客觀規則它還算正常範圍。這正是箱型圖的價值:它讓「離群」這件事有可重複的判準,而不是憑感覺。

散布圖:看見兩個變數的關係

當你想知道「身高和體重有沒有關係」「讀書時數和成績有沒有關係」,就需要散布圖(scatter plot)。每一個點代表一筆資料的兩個座標,整片點雲的走向告訴你變數之間的關聯。

我們可以用相關係數 $r$ 來量化這種「直線關係」的強弱:

$$r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2}\,\sqrt{\sum (y_i - \bar{y})^2}}$$

$r$ 介於 $-1$ 到 $1$ 之間。接近 $1$ 表示「一個變大、另一個也跟著變大」的強正相關;接近 $-1$ 是強負相關;接近 $0$ 表示沒有明顯的直線關係。

這裡藏著統計素養最重要的一課:相關不等於因果。 散布圖上看到讀書時數越多、成績越高,並不能直接斷言「多讀書一定導致高分」——也許是「本來就用功又聰明的同學,既讀得多又考得好」,存在一個共同的背後因素(潛在的干擾變數)。經典反例是「冰淇淋銷量」和「溺水人數」高度正相關,但沒有人會說吃冰淇淋會害人溺水,真正的共同原因是「夏天天氣熱」。

另外要小心:$r$ 只衡量直線關係。如果兩變數是漂亮的拋物線關係(先升後降),$r$ 可能接近 0,但它們其實關係緊密。這就是為什麼一定要先畫散布圖,而不是只看一個 $r$ 值就下結論——又回到安斯庫姆的教訓。

別被圖騙了:三個常見陷阱

第一,截斷的 y 軸。長條圖如果不從 0 開始,而是從某個高處起跳,會把微小的差距放大成戲劇性的鴻溝。看圖時務必先看座標軸刻度。

第二,挑選有利的組距或區間。前面提過,直方圖的 bin 寬度可以改變整張圖的「故事」。

第三,用面積或 3D 效果誤導。當差距用「圓形面積」或立體柱體呈現時,視覺上的比例往往和真實數值不成正比。

好的視覺化是誠實地放大資料裡的訊號;壞的視覺化是用視覺技巧製造不存在的結論。學會看圖,就是學會在資訊洪流中保護自己的判斷力。

深入探討(研究所視角)

到了研究所階段,視覺化背後其實牽涉一整套密度估計(density estimation)理論。直方圖可視為最簡單的非參數密度估計量,但它對 bin 的起點與寬度敏感,且不連續。更精緻的做法是核密度估計(kernel density estimation, KDE)

$$\hat{f}_h(x) = \frac{1}{nh}\sum_{i=1}^{n} K\!\left(\frac{x - x_i}{h}\right),$$

其中 $K$ 是核函數(常用高斯核),$h$ 是頻寬。頻寬 $h$ 的選擇本質上是偏誤—變異權衡(bias-variance tradeoff):$h$ 太小,估計量變異大、過度擬合雜訊;$h$ 太大,偏誤大、把結構抹平。最適頻寬可由最小化均方積分誤差(MISE)導出,著名的 Silverman 經驗法則 $h \approx 1.06\,\hat{\sigma}\,n^{-1/5}$ 即源於此。可見「組距怎麼選」這個入門問題,在理論上對應到一個嚴謹的最佳化準則。

關於相關係數,研究所層級會強調 Pearson $r$ 只捕捉線性相依。當關係非線性或變數非常態時,應改用基於秩的 Spearman $\rho$ 或 Kendall $\tau$,它們對單調但非線性的關係更穩健,也對離群值不敏感。更一般地,互資訊(mutual information)

$$I(X;Y) = \iint f(x,y)\,\log\frac{f(x,y)}{f(x)f(y)}\,dx\,dy$$

可捕捉任意形式的相依,$I(X;Y)=0$ 當且僅當 $X$ 與 $Y$ 獨立,這在機器學習的特徵選擇中扮演要角。

因果推論的視角看,散布圖上的相關只是觀察層次的統計關聯。要從關聯走向因果,需要 Pearl 的結構因果模型與 do-運算子 $P(Y\mid \mathrm{do}(X))$,或 Rubin 的潛在結果框架,藉由隨機化、傾向分數匹配或工具變數來阻斷干擾路徑。辛普森悖論(Simpson's paradox)正是視覺化的警鐘:把分層資料合併後,整體趨勢可能與每個子群的趨勢完全相反——這在散布圖加上分組著色時往往一目了然,卻在單一彙總數字裡徹底隱形。

最後,現代視覺化也與探索性資料分析(EDA)的統計哲學相連。Tukey 提出箱型圖時,主張在做任何模型假設之前,先讓資料的形狀引導問題的提出,而非反過來用既定假設綁架資料。在高維資料時代,這延伸為 t-SNE、UMAP 等降維視覺化技術——但它們會扭曲全域距離,圖上「看起來很近」的群集未必在原空間鄰近,解讀時需格外謹慎。視覺化既是探索的起點,也是最容易自我欺騙的環節。

AI 共讀助教正在陪你讀:讓資料自己說話:直方圖、箱型圖、散布圖的看圖學
嗨!我是這篇文章的共讀助教,只根據〈讓資料自己說話:直方圖、箱型圖、散布圖的看圖學〉的內容回答。可以問我「解釋某段」「舉個例子」「出題考我」,或反白文中段落後點下方「解釋選取段落」。