加權平均、修剪平均與穩健統計：當「平均」需要被信任時

從逆變異數加權、崩潰點到影響函數與 M-估計，建立可量化的效率與抗污染權衡

進階 · 約 12 分鐘 ·#加權平均#修剪平均#穩健統計#影響函數#M-估計#逆變異數加權

從「平均」到「該相信哪個平均」

當資料乾淨且來自單一同質母體時，樣本算術平均數 $\bar{X}=\frac{1}{n}\sum_{i=1}^{n}X_i$ 幾乎是無可挑剔的——它是常態母體下的最大概似估計量，也是不偏且變異數最小的線性估計量。但真實世界少有這種奢侈：不同觀測有不同精確度、不同抽樣權重，或被少數極端值污染。此時「該用哪個平均」不再是品味問題，而是估計理論問題。本文聚焦三種互相關聯的工具——加權平均處理「異質權重」、修剪平均處理「尾端污染」、穩健統計則提供統一的理論語言：在不確定母體形狀時，如何在效率（efficiency）與抵抗污染（resistance）之間做有原則的取捨。

加權平均、修剪平均與穩健統計概念示意圖

加權平均：最佳線性不偏估計的權重來源

加權平均定義為

$$\bar{X}_w=\frac{\sum_{i=1}^{n} w_i X_i}{\sum_{i=1}^{n} w_i},\qquad w_i\ge 0.$$

權重不是隨意指定的。考慮各觀測獨立、$\mathbb{E}[X_i]=\mu$ 但異質變異 $\operatorname{Var}(X_i)=\sigma_i^2$（heteroscedastic）的情形。在所有形如 $\sum a_i X_i$、$\sum a_i=1$ 的線性不偏估計量中，要使

$$\operatorname{Var}\!\left(\sum_i a_i X_i\right)=\sum_i a_i^2\sigma_i^2$$

最小，利用 Lagrange 乘子或 Cauchy–Schwarz 可得最佳權重 $a_i\propto 1/\sigma_i^2$。也就是說，逆變異數加權（inverse-variance weighting）是異質變異下的最小變異不偏估計，這正是 meta-analysis 與 GLS（廣義最小平方）的核心。代入後其變異數為

$$\operatorname{Var}(\bar{X}_w)=\left(\sum_{i=1}^{n}\frac{1}{\sigma_i^2}\right)^{-1},$$

恆小於等於任何其他權重方案。值得強調：在抽樣調查中權重 $w_i$ 常取為抽樣機率的倒數（Horvitz–Thompson 估計），目的是回復母體代表性而非最小化變異——同一個公式，背後的最佳性準則卻完全不同，使用時務必分清權重的「來歷」。

修剪平均：以犧牲一點效率換取抗污染

修剪平均（trimmed mean）將排序後資料 $X_{(1)}\le\cdots\le X_{(n)}$ 的兩端各去掉比例 $\alpha\in[0,0.5)$ 後取平均：

$$\bar{X}_{\alpha}=\frac{1}{n-2g}\sum_{i=g+1}^{n-g}X_{(i)},\qquad g=\lfloor \alpha n\rfloor.$$

當 $\alpha=0$ 即算術平均；當 $\alpha\to 0.5$ 則收斂到中位數。它的價值在於崩潰點（breakdown point）：算術平均只要一個觀測 $\to\infty$ 整個估計就失控，崩潰點為 $0$；$\alpha$-修剪平均的崩潰點是 $\alpha$，意即須污染超過比例 $\alpha$ 的資料才能讓估計任意偏離。代價則是效率損失：在乾淨常態母體下修剪平均的變異數略大於 $\bar X$。

要量化抗污染能力，穩健統計用影響函數（influence function）$\mathrm{IF}(x;T,F)$，衡量在分布 $F$ 上加入一個位於 $x$ 的點質量對泛函 $T$ 的瞬時影響。算術平均的影響函數是 $\mathrm{IF}(x;\bar X)=x-\mu$——無界，故單一極端值殺傷力無窮；修剪平均與中位數的影響函數則有界，這就是它們穩健的數學根源。漸近上，

$$\sqrt{n}\,(\bar{X}_{\alpha}-\mu_\alpha)\xrightarrow{d}\mathcal{N}\!\big(0,\ V(\alpha,F)\big),$$

其中漸近變異 $V$ 可由影響函數的平方期望 $\int \mathrm{IF}^2\,dF$ 算出。對稱母體下 $\mu_\alpha=\mu$，故修剪平均仍不偏估計中心。

定量小範例

設一筆學生反應時間（毫秒）：$\{180,\,195,\,200,\,205,\,210,\,215,\,220,\,230,\,250,\,980\}$，$n=10$，其中 $980$ 為儀器誤觸的離群值。

算術平均：總和 $=2885$，$\bar X=288.5$ ms——被單一離群值嚴重拉高。

10% 修剪平均（$\alpha=0.1$，$g=\lfloor 1\rfloor=1$）：去掉最小 $180$ 與最大 $980$，

$$\bar{X}_{0.1}=\frac{195+200+205+210+215+220+230+250}{8}=\frac{1725}{8}=215.6\text{ ms}.$$

加權平均（示意逆變異數）：若已知後段量測較不穩定，給前八個穩定觀測 $w=2$、給 $250$ 與 $980$ 各 $w=0.5$：

$$\bar{X}_w=\frac{2(195+\cdots+230)+0.5(250)+0.5(980)}{2\times8+0.5+0.5}=\frac{2(1470)+615}{17}=\frac{3555}{17}\approx 209.1\text{ ms}.$$

三個數字相差懸殊（$288.5$ vs $215.6$ vs $209.1$），具體呈現「估計量選擇」如何左右結論。修剪平均 $215.6$ ms 顯然更貼近資料主體的中心。

穩健統計的統一框架：M-估計

修剪平均其實是更一般的 M-估計量的特例。M-估計把中心 $\mu$ 定義為求解

$$\sum_{i=1}^{n}\psi\!\left(\frac{X_i-\hat\mu}{s}\right)=0$$

的根，其中 $s$ 為穩健尺度（如 MAD，median absolute deviation）。取 $\psi(u)=u$ 還原成算術平均；取 Huber 的 $\psi_k(u)=\max(-k,\min(k,u))$ 則對小殘差線性、對大殘差封頂，在常態下幾乎和 $\bar X$ 一樣有效，遇污染又能限制單點影響。Tukey 的 biweight 更進一步把極端值權重歸零。這個 $\psi$ 函數正是影響函數的形狀，於是「選 $\psi$」=「選你願意承受的影響函數」，把估計量設計變成一個可量化的工程決策。

素養提醒：穩健不等於正確

最後務必澄清三點常見誤解。其一，穩健統計處理的是「污染與離群」，不是「因果」：用修剪平均得到較穩定的組間差，仍只是相關性描述，能否歸因於處理仍取決於研究設計與隨機化。其二，丟掉離群值不是「作弊」也不是萬靈丹——若極端值來自真實的重尾母體（如所得、地震規模），修剪會系統性低估尾端風險，此時應該建模尾部而非刪除。其三，加權必須有明確理由（變異數結構或抽樣設計），任意加權等於暗中植入研究者偏好。穩健工具讓估計對假設違反更不敏感，但它無法替代對資料生成過程的理解。

深入探討（研究所視角）

從泛函分析的角度，位置估計量是統計泛函 $T(F)$，其在經驗分布 $F_n$ 上的取值 $T(F_n)$ 之大樣本行為由 von Mises 展開主導：$T(F_n)\approx T(F)+\frac{1}{n}\sum_i \mathrm{IF}(X_i;T,F)$，於是 $\sqrt{n}(T(F_n)-T(F))\xrightarrow{d}\mathcal{N}(0,\int \mathrm{IF}^2\,dF)$。這把前述各估計量的漸近常態性收攏為單一機制：影響函數的二階矩即漸近變異，而其上確界（gross-error sensitivity）刻畫最壞情況的偏誤。Hampel 的最佳穩健性問題即：在「影響函數有界於 $b$」的約束下，最小化漸近變異——解恰為 Huber 估計，給了它最小最大（minimax）意義下的最優地位，呼應 Huber 對污染鄰域 $(1-\varepsilon)F+\varepsilon H$ 的 minimax variance 結果。

最大概似與穩健性的張力在此清晰：MLE 在指定模型下達到 Cramér–Rao 下界（漸近效率 $1$），但其 $\psi=-f'/f$（score function）通常無界——常態 MLE 即 $\bar X$，故 MLE 的「最優」是以模型完全正確為前提的脆弱最優。動差法（method of moments）則更脆弱，因樣本動差的影響函數隨階數成多項式增長。穩健估計刻意放棄一點漸近效率（在常態下 Huber 約 $95\%$），換取在模型誤設鄰域內的穩定表現——這是 bias–variance 之外的第三軸：效率–穩健權衡。

貝氏對應同樣自然。逆變異數加權平均正是常態–常態共軛下的後驗平均：以 $X_i\mid\mu\sim\mathcal{N}(\mu,\sigma_i^2)$ 與平坦先驗，後驗精度為各觀測精度之和，後驗均值即 $\sum(X_i/\sigma_i^2)/\sum(1/\sigma_i^2)$——加權平均的最佳性在此化為後驗最優性。而穩健貝氏則以重尾似然（如 Student-$t$ 取代常態）達成自動修剪：$t$ 分布的 score function 在大殘差處回落（redescending），效果近似 Tukey biweight，使後驗對離群值不敏感，無需硬性刪除資料。階層模型（hierarchical / random-effects）更把 meta-analysis 的逆變異數加權推廣為「以研究間異質性 $\tau^2$ 校正的收縮加權」，James–Stein 收縮即其頻率派影子。

與現代機器學習的連結尤其深。穩健回歸的損失函數設計（Huber loss、Tukey loss、$\varepsilon$-insensitive loss）直接源於 $\psi$ 函數理論；trimmed loss 對應 least trimmed squares 與穩健 PCA。在因果推論中，逆機率加權（IPW）估計量本質是加權平均的推廣，但已知對極端傾向分數高度不穩——其影響函數隨權重發散，故發展出修剪權重、重疊權重（overlap weights）與雙重穩健（doubly robust）的 AIPW 估計量，後者以半參數效率理論中的影響函數為設計核心，達到 efficient influence function 所界定的半參數效率下界。可見從十九世紀的算術平均到當代因果機器學習，貫穿其中的是同一條主線：估計量由其影響函數定義，而統計推論的藝術，在於選擇一條你願意為之負責的影響曲線。

← 上一篇

用一個數字代表一整群人：平均數、中位數、眾數

--

1

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings