從「圖騙」到統計推論：誤導性圖表的形式化剖析

以 lie factor、心理物理冪定律與估計理論，量化視覺編碼如何在不竄改資料下扭曲判斷

進階 · 約 14 分鐘 ·#資料視覺化#誤導性圖表#lie factor#視覺編碼#估計理論#因果推論

從「圖騙」到統計推論：誤導性圖表的形式化剖析

我們常說「一圖勝千言」，但圖表的說服力恰恰是它的危險之處：人眼對長度、面積、角度、色階的知覺並非線性，而視覺編碼（visual encoding）一旦與被表徵的數值之間發生非保距（non-isometric）映射，圖表就會在「不竄改任何一筆資料」的前提下系統性地扭曲讀者的後驗判斷。本文不停留在「Y 軸別截斷」的清單式提醒，而是把視覺化原則放回估計理論與知覺心理物理學的框架中，說明誤導為何可被形式化、可被量化、可被檢定。

視覺化原則與誤導性圖表的識別概念示意圖

視覺編碼的保距性：lie factor 的數學定義

把資料值記為 $v$，圖形元件在畫面上呈現的視覺量（長度、面積、角度等）記為 $g(v)$。理想的「誠實編碼」要求兩者保持比例：對任意兩值 $v_1, v_2$，

$$ \frac{g(v_1)}{g(v_2)} = \frac{v_1}{v_2}. $$

Tufte 的 lie factor 即是對此比例破壞程度的度量：

$$ \text{LF} = \frac{\text{圖形上效果的相對變化}}{\text{資料的相對變化}} = \frac{\big(g(v_2)-g(v_1)\big)/g(v_1)}{\big(v_2-v_1\big)/v_1}. $$

誠實圖表 $\text{LF}=1$；$\text{LF}>1.05$ 視為誇大，$\text{LF}<0.95$ 視為弱化。最經典的破壞來自「以一維資料驅動二維面積」。設用圓盤直徑線性表示數值 $v$，即 $d(v)\propto v$，則面積 $A(v)\propto d^2 \propto v^2$。對 $v_1\to v_2$，面積相對變化為

$$ \frac{A_2-A_1}{A_1} = \left(\frac{v_2}{v_1}\right)^2 - 1, $$

故

$$ \text{LF} = \frac{(v_2/v_1)^2 - 1}{(v_2/v_1) - 1} = \frac{v_2}{v_1} + 1. $$

當 $v_2/v_1 = 2$ 時 $\text{LF}=3$：資料只翻倍，知覺面積卻像翻了三倍。這正是「面積比例謬誤」的閉式來源——它不是主觀印象，而是 $g(v)=cv^2$ 這個非保距映射的必然結果。修正之道是讓面積而非直徑正比於數值，即 $d\propto\sqrt{v}$。

Y 軸截斷：把比例尺度偷換成區間尺度

長條圖以「長度自零起算」編碼數值，其知覺語意預設了比例尺度（ratio scale）——零點有意義、可談倍數。一旦把基線設為 $b>0$，畫面長度變成 $g(v)=v-b$，於是

$$ \frac{g(v_2)}{g(v_1)} = \frac{v_2-b}{v_1-b}\neq \frac{v_2}{v_1}. $$

對 $v_2>v_1>b$，可證 $\dfrac{v_2-b}{v_1-b}>\dfrac{v_2}{v_1}$，差異被放大。例如 $v_1=100,\;v_2=104$ 本只差 4%，若取 $b=98$，畫面長度比變成 $6/2=3$，視覺上像「三倍」。截斷基線等於偷偷把資料從比例尺度降格為區間尺度，卻仍用長度（比例語意）去呈現——量尺與編碼語意不匹配，正是誤導的根。折線圖因不靠「自零起算的長度」編碼絕對量，反而允許截斷以凸顯變異，這說明規則須隨幾何標記的知覺語意而定，不能一刀切。

知覺的冪定律：為什麼面積與色彩特別危險

Stevens 的心理物理冪定律指出，主觀知覺量 $\psi$ 與物理刺激強度 $\phi$ 服從

$$ \psi = k\,\phi^{\alpha}, $$

指數 $\alpha$ 隨知覺通道而異：長度 $\alpha\approx 1$（近線性，故最可靠）、面積 $\alpha\approx 0.7$、亮度 $\alpha\approx 0.33$。把這代入編碼分析：即使我們「正確」讓面積正比於數值（$A\propto v$），讀者感知到的卻是 $\psi\propto A^{0.7}\propto v^{0.7}$，大值被系統性低估。Cleveland 與 McGill 的圖形知覺實驗據此把編碼依準確度排序：位置 > 長度 > 角度/斜率 > 面積 > 體積 > 色彩飽和度。誤導性圖表的常見手法，正是刻意選用 $\alpha$ 遠離 1、且讀者難以校準的低階通道（3D 立體柱、氣泡、漸層色階），讓「主觀印象」與「客觀數值」之間插入一道難以察覺的冪次扭曲。

定量小範例：一張被三重操弄的長條圖

某公司宣稱「營收暴增」，用立體圓柱的「高度」表示兩年營收 $v_1=120$、$v_2=132$（單位：百萬），且基線設於 $b=110$。

步驟一（真實相對變化）：$\dfrac{v_2-v_1}{v_1}=\dfrac{12}{120}=10\%$。

步驟二（截斷基線造成的長度誇大）：畫面高度 $g(v)=v-b$，故 $$ \frac{g(v_2)}{g(v_1)}=\frac{132-110}{120-110}=\frac{22}{10}=2.2, $$ 讀者由「高度」讀到的相對變化為 $2.2-1=120\%$。此步 lie factor 為 $\dfrac{1.20}{0.10}=12$。

步驟三（立體圓柱的面積冪次再加碼）：若 3D 圓柱讓視覺量近似正比於高度平方（投影面積），知覺效果再經 $\psi\propto g^{0.7\times 2}=g^{1.4}$。以截斷後高度比 $2.2$ 計，知覺比約 $2.2^{1.4}\approx 3.0$，即「像漲了 200%」。

最終讀者腦中的 $\approx 200\%$ 對上真實的 $10\%$，總 lie factor $\approx 20$。三重操弄——截斷、降維、立體——各自貢獻一個乘法因子，正是「不改數據卻能撒謊」的定量解剖。

別把視覺差異當統計差異：估計不確定性的缺席

最隱微的誤導不是放大，而是把抽樣變異藏起來。設兩組樣本均值 $\bar{X}_1,\bar{X}_2$，其差的標準誤為

$$ \mathrm{SE}(\bar{X}_1-\bar{X}_2)=\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}. $$

一張只畫兩根光禿長條、不畫誤差棒或信賴區間的圖，等於宣告 $\mathrm{SE}=0$。讀者把「畫面上的高度差」直接讀成「母體的真實差」，卻不知該差可能落在 $(\bar{X}_1-\bar{X}_2)\pm t_{\alpha/2}\,\mathrm{SE}$ 的區間裡、甚至跨過零。視覺顯著（visually salient）不等於統計顯著（statistically significant）；負責任的圖表必須讓不確定性與點估計同框呈現。同理，相關散佈圖上一條陡峭的迴歸線只刻畫 $\widehat{\beta}$ 的方向，絕不能被讀成因果效應——除非設計上排除了混淆，否則 $\widehat{\beta}$ 估的是條件期望的斜率，不是 $\partial \mathbb{E}[Y\mid \mathrm{do}(X)]/\partial x$。

深入探討（研究所視角）

把「誠實視覺化」形式化為估計問題，可看出更深的結構。視覺化本質是一個從資料到視覺刺激的映射 $T:\,v\mapsto g$，理想性質是保序且保距；而誤導圖表對應到 $T$ 的某種已知扭曲。若把讀者建模為一個從刺激回推數值的估計器 $\hat{v}=T^{-1}_{\text{perceived}}(\psi)$，Stevens 冪定律意味著讀者實際使用的反函數是 $\hat v \propto \psi^{1/\alpha}$，於是即便編碼無偏，知覺估計量仍帶有乘法偏誤 $\mathbb{E}[\hat v]\neq v$。良好的色階設計（如感知均勻的 CIELAB 或 viridis）正是在做一件統計的事：讓 $\Delta\psi$ 對 $\Delta v$ 近似常數，即把 Jacobian $\partial \psi/\partial v$ 拉平，等價於方差穩定變換（variance-stabilizing transformation）——同樣的數學也出現在 $\sqrt{\cdot}$ 對 Poisson、$\arcsin\sqrt{\cdot}$ 對二項的處理裡。

從估計量漸近性質看，圖上呈現的任何彙總統計都帶有抽樣分佈。以核密度估計（KDE）繪製分佈為例，估計量 $\hat f_h(x)=\frac{1}{nh}\sum_i K\!\big(\frac{x-X_i}{h}\big)$ 的偏誤與變異呈現經典 bias–variance 拉鋸：

$$ \mathrm{Bias}\approx \tfrac12 h^2 f''(x)\!\int u^2K(u)\,du,\qquad \mathrm{Var}\approx \frac{f(x)}{nh}\!\int K^2(u)\,du. $$

帶寬 $h$ 過小則曲線過度起伏（讀者誤以為有多峰結構），過大則抹平真實眾數。最小化均方積分誤差得 $h^\star\propto n^{-1/5}$，使收斂率為 $O(n^{-4/5})$，慢於參數估計的 $O(n^{-1})$——這提醒我們：直方圖與密度圖的「形狀」本身是一個有不確定性的估計物，bin 寬或帶寬的選擇即是一種編碼決策，可被濫用為視覺操弄。

最大概似與貝氏對應提供互補視角。若以分組直方圖近似概似，等距 bin 對應對母體密度的非參數 MLE 的階梯近似；改變 bin 起點與寬度，等於改變概似的粗粒化，因而可在不更動資料下挪移視覺眾數（著名的 Simpson 式分組悖論在連續情境的翻版）。貝氏框架下，密度的後驗（如 Dirichlet process mixture）會把帶寬不確定性整合進後驗信用帶（credible band），這正是「在圖上把估計不確定性視覺化」的原理性作法——可信區間帶取代了單一光滑曲線，讓讀者看見的是後驗分佈而非點估計。

最後是因果與機器學習的接口。Simpson 悖論在圖上表現為「分層斜率」與「合併斜率」反號：$\mathbb{E}[Y\mid X]$ 的邊際關聯與 $\mathbb{E}[Y\mid X,Z]$ 的條件關聯方向相反，視覺上即一條向上的合併趨勢線掩蓋了各組向下的趨勢。是否「該分層、該畫哪條線」並非美學問題，而需由因果圖（DAG）的後門準則決定——把 $Z$ 視為混淆而調整，或視為對撞子（collider）而避免調整，會給出截然不同卻同樣「不假」的圖。當代以 SHAP、部分依賴圖（PDP）解釋模型時也面臨相同陷阱：PDP 在特徵相關時會外推到資料稀疏區，畫出母體中根本不存在的「效果曲線」。可見從 Tufte 的 lie factor、Cleveland 的圖形知覺，到非參數估計的漸近率與因果識別，誤導性圖表的識別最終匯流為同一個統計命題：任何圖都是一個帶有偏誤與變異的估計量，唯有讓編碼保距、讓不確定性現形、讓因果結構明示，視覺化才稱得上是誠實的推論。

← 上一篇

讓資料自己說話：直方圖、箱型圖、散布圖的看圖學

--

1

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings

從「圖騙」到統計推論：誤導性圖表的形式化剖析