讓資料自己說話：直方圖、箱型圖、散布圖的看圖學

三種基本圖表，幫你看見資料的形狀與關係，也教你別被圖騙了

高中｜大學銜接 · 約 9 分鐘 ·#資料視覺化#直方圖#箱型圖#散布圖#相關係數

為什麼我們需要「看見」資料

想像你手上有一份全班 40 位同學的數學成績。如果只看到一行平均分「73 分」，你其實對這個班一無所知：到底是大家都考 70 幾分，還是一半人滿分、一半人不及格？單一數字會把豐富的故事壓扁成一個點。

統計學家很早就明白這件事。有一個著名的例子叫「安斯庫姆四重奏」（Anscombe's quartet）：四組資料的平均數、變異數、相關係數幾乎一模一樣，但畫成圖之後長相天差地遠——有的是直線、有的是曲線、有的根本是一個離群點在搗亂。這告訴我們：摘要統計量會騙人，圖會說真話。但反過來，圖也可能被刻意設計來誤導你。本文要帶你認識三種最基本、最常用的圖：直方圖、箱型圖、散布圖，並學會「讓資料說話」也「別被圖騙了」。

資料視覺化概念示意圖

直方圖：看見資料的「形狀」

直方圖（histogram）把連續資料切成若干區間（bin），數每個區間裡有幾筆資料，再用長條的高度表示。它回答的問題是：「資料集中在哪裡？散得開不開？是對稱還是偏一邊？」

用剛剛那 40 位同學的成績舉例。假設我們把成績每 10 分切一格：

50–59 分：3 人
60–69 分：8 人
70–79 分：15 人
80–89 分：10 人
90–100 分：4 人

畫成直方圖，你會立刻看到一個「中間高、兩邊低」的鐘形輪廓，高峰落在 70 多分。這比「平均 73 分」資訊量大得多。

直方圖最容易被「組距」騙。 同一份資料，如果你用很寬的 bin（例如每 25 分一格），會把細節抹平，看起來很平滑；用很窄的 bin（每 2 分一格），又會變得鋸齒狀、充滿雜訊。沒有唯一正確答案，但有經驗法則。例如史特吉斯法則（Sturges' rule）建議的組數為

$$k = 1 + \log_2 n$$

當 $n = 40$ 時，$k = 1 + \log_2 40 \approx 1 + 5.32 = 6.32$，取約 6 組。這提醒我們：看直方圖時，要留意組距是不是被人為調整來放大或隱藏某種結論。

箱型圖：用五個數字摘要一群人

箱型圖（box plot）不畫每一筆資料，而是用「五數摘要」把分布壓縮成一個方塊加兩條鬍鬚：最小值、第一四分位數（$Q_1$）、中位數（$Q_2$）、第三四分位數（$Q_3$）、最大值。

中間的方塊從 $Q_1$ 到 $Q_3$，涵蓋中間 50% 的資料，它的長度叫四分位距（IQR）：

$$\text{IQR} = Q_3 - Q_1$$

箱型圖最大的優點是容易並排比較好幾群，而且能客觀標出離群值。常用規則是：任何超過 $Q_3 + 1.5 \times \text{IQR}$ 或低於 $Q_1 - 1.5 \times \text{IQR}$ 的點，就被標為可疑的離群值。

來算一次。假設某次小考 9 位同學的分數排序後是：

$$40,\ 55,\ 60,\ 62,\ 65,\ 68,\ 70,\ 75,\ 92$$

中位數是第 5 個數 $Q_2 = 65$。下半部 $\{40, 55, 60, 62\}$ 的中位數 $Q_1 = \frac{55+60}{2} = 57.5$；上半部 $\{68, 70, 75, 92\}$ 的中位數 $Q_3 = \frac{70+75}{2} = 72.5$。於是

$$\text{IQR} = 72.5 - 57.5 = 15.$$

上界 $= 72.5 + 1.5 \times 15 = 95$，下界 $= 57.5 - 1.5 \times 15 = 35$。92 分落在界內，沒有人被判為離群值——雖然 92 看起來「特別高」，但用客觀規則它還算正常範圍。這正是箱型圖的價值：它讓「離群」這件事有可重複的判準，而不是憑感覺。

散布圖：看見兩個變數的關係

當你想知道「身高和體重有沒有關係」「讀書時數和成績有沒有關係」，就需要散布圖（scatter plot）。每一個點代表一筆資料的兩個座標，整片點雲的走向告訴你變數之間的關聯。

我們可以用相關係數 $r$ 來量化這種「直線關係」的強弱：

$$r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2}\,\sqrt{\sum (y_i - \bar{y})^2}}$$

$r$ 介於 $-1$ 到 $1$ 之間。接近 $1$ 表示「一個變大、另一個也跟著變大」的強正相關；接近 $-1$ 是強負相關；接近 $0$ 表示沒有明顯的直線關係。

這裡藏著統計素養最重要的一課：相關不等於因果。 散布圖上看到讀書時數越多、成績越高，並不能直接斷言「多讀書一定導致高分」——也許是「本來就用功又聰明的同學，既讀得多又考得好」，存在一個共同的背後因素（潛在的干擾變數）。經典反例是「冰淇淋銷量」和「溺水人數」高度正相關，但沒有人會說吃冰淇淋會害人溺水，真正的共同原因是「夏天天氣熱」。

另外要小心：$r$ 只衡量直線關係。如果兩變數是漂亮的拋物線關係（先升後降），$r$ 可能接近 0，但它們其實關係緊密。這就是為什麼一定要先畫散布圖，而不是只看一個 $r$ 值就下結論——又回到安斯庫姆的教訓。

別被圖騙了：三個常見陷阱

第一，截斷的 y 軸。長條圖如果不從 0 開始，而是從某個高處起跳，會把微小的差距放大成戲劇性的鴻溝。看圖時務必先看座標軸刻度。

第二，挑選有利的組距或區間。前面提過，直方圖的 bin 寬度可以改變整張圖的「故事」。

第三，用面積或 3D 效果誤導。當差距用「圓形面積」或立體柱體呈現時，視覺上的比例往往和真實數值不成正比。

好的視覺化是誠實地放大資料裡的訊號；壞的視覺化是用視覺技巧製造不存在的結論。學會看圖，就是學會在資訊洪流中保護自己的判斷力。

深入探討（研究所視角）

到了研究所階段，視覺化背後其實牽涉一整套密度估計（density estimation）理論。直方圖可視為最簡單的非參數密度估計量，但它對 bin 的起點與寬度敏感，且不連續。更精緻的做法是核密度估計（kernel density estimation, KDE）：

$$\hat{f}_h(x) = \frac{1}{nh}\sum_{i=1}^{n} K\!\left(\frac{x - x_i}{h}\right),$$

其中 $K$ 是核函數（常用高斯核），$h$ 是頻寬。頻寬 $h$ 的選擇本質上是偏誤—變異權衡（bias-variance tradeoff）：$h$ 太小，估計量變異大、過度擬合雜訊；$h$ 太大，偏誤大、把結構抹平。最適頻寬可由最小化均方積分誤差（MISE）導出，著名的 Silverman 經驗法則 $h \approx 1.06\,\hat{\sigma}\,n^{-1/5}$ 即源於此。可見「組距怎麼選」這個入門問題，在理論上對應到一個嚴謹的最佳化準則。

關於相關係數，研究所層級會強調 Pearson $r$ 只捕捉線性相依。當關係非線性或變數非常態時，應改用基於秩的 Spearman $\rho$ 或 Kendall $\tau$，它們對單調但非線性的關係更穩健，也對離群值不敏感。更一般地，互資訊（mutual information）

$$I(X;Y) = \iint f(x,y)\,\log\frac{f(x,y)}{f(x)f(y)}\,dx\,dy$$

可捕捉任意形式的相依，$I(X;Y)=0$ 當且僅當 $X$ 與 $Y$ 獨立，這在機器學習的特徵選擇中扮演要角。

從因果推論的視角看，散布圖上的相關只是觀察層次的統計關聯。要從關聯走向因果，需要 Pearl 的結構因果模型與 do-運算子 $P(Y\mid \mathrm{do}(X))$，或 Rubin 的潛在結果框架，藉由隨機化、傾向分數匹配或工具變數來阻斷干擾路徑。辛普森悖論（Simpson's paradox）正是視覺化的警鐘：把分層資料合併後，整體趨勢可能與每個子群的趨勢完全相反——這在散布圖加上分組著色時往往一目了然，卻在單一彙總數字裡徹底隱形。

最後，現代視覺化也與探索性資料分析（EDA）的統計哲學相連。Tukey 提出箱型圖時，主張在做任何模型假設之前，先讓資料的形狀引導問題的提出，而非反過來用既定假設綁架資料。在高維資料時代，這延伸為 t-SNE、UMAP 等降維視覺化技術——但它們會扭曲全域距離，圖上「看起來很近」的群集未必在原空間鄰近，解讀時需格外謹慎。視覺化既是探索的起點，也是最容易自我欺騙的環節。

從「圖騙」到統計推論：誤導性圖表的形式化剖析

--

1

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings