加權平均、修剪平均與穩健統計:當「平均」需要被信任時
從逆變異數加權、崩潰點到影響函數與 M-估計,建立可量化的效率與抗污染權衡
從「平均」到「該相信哪個平均」
當資料乾淨且來自單一同質母體時,樣本算術平均數 $\bar{X}=\frac{1}{n}\sum_{i=1}^{n}X_i$ 幾乎是無可挑剔的——它是常態母體下的最大概似估計量,也是不偏且變異數最小的線性估計量。但真實世界少有這種奢侈:不同觀測有不同精確度、不同抽樣權重,或被少數極端值污染。此時「該用哪個平均」不再是品味問題,而是估計理論問題。本文聚焦三種互相關聯的工具——加權平均處理「異質權重」、修剪平均處理「尾端污染」、穩健統計則提供統一的理論語言:在不確定母體形狀時,如何在效率(efficiency)與抵抗污染(resistance)之間做有原則的取捨。

加權平均:最佳線性不偏估計的權重來源
加權平均定義為
$$\bar{X}_w=\frac{\sum_{i=1}^{n} w_i X_i}{\sum_{i=1}^{n} w_i},\qquad w_i\ge 0.$$
權重不是隨意指定的。考慮各觀測獨立、$\mathbb{E}[X_i]=\mu$ 但異質變異 $\operatorname{Var}(X_i)=\sigma_i^2$(heteroscedastic)的情形。在所有形如 $\sum a_i X_i$、$\sum a_i=1$ 的線性不偏估計量中,要使
$$\operatorname{Var}\!\left(\sum_i a_i X_i\right)=\sum_i a_i^2\sigma_i^2$$
最小,利用 Lagrange 乘子或 Cauchy–Schwarz 可得最佳權重 $a_i\propto 1/\sigma_i^2$。也就是說,逆變異數加權(inverse-variance weighting)是異質變異下的最小變異不偏估計,這正是 meta-analysis 與 GLS(廣義最小平方)的核心。代入後其變異數為
$$\operatorname{Var}(\bar{X}_w)=\left(\sum_{i=1}^{n}\frac{1}{\sigma_i^2}\right)^{-1},$$
恆小於等於任何其他權重方案。值得強調:在抽樣調查中權重 $w_i$ 常取為抽樣機率的倒數(Horvitz–Thompson 估計),目的是回復母體代表性而非最小化變異——同一個公式,背後的最佳性準則卻完全不同,使用時務必分清權重的「來歷」。
修剪平均:以犧牲一點效率換取抗污染
修剪平均(trimmed mean)將排序後資料 $X_{(1)}\le\cdots\le X_{(n)}$ 的兩端各去掉比例 $\alpha\in[0,0.5)$ 後取平均:
$$\bar{X}_{\alpha}=\frac{1}{n-2g}\sum_{i=g+1}^{n-g}X_{(i)},\qquad g=\lfloor \alpha n\rfloor.$$
當 $\alpha=0$ 即算術平均;當 $\alpha\to 0.5$ 則收斂到中位數。它的價值在於崩潰點(breakdown point):算術平均只要一個觀測 $\to\infty$ 整個估計就失控,崩潰點為 $0$;$\alpha$-修剪平均的崩潰點是 $\alpha$,意即須污染超過比例 $\alpha$ 的資料才能讓估計任意偏離。代價則是效率損失:在乾淨常態母體下修剪平均的變異數略大於 $\bar X$。
要量化抗污染能力,穩健統計用影響函數(influence function)$\mathrm{IF}(x;T,F)$,衡量在分布 $F$ 上加入一個位於 $x$ 的點質量對泛函 $T$ 的瞬時影響。算術平均的影響函數是 $\mathrm{IF}(x;\bar X)=x-\mu$——無界,故單一極端值殺傷力無窮;修剪平均與中位數的影響函數則有界,這就是它們穩健的數學根源。漸近上,
$$\sqrt{n}\,(\bar{X}_{\alpha}-\mu_\alpha)\xrightarrow{d}\mathcal{N}\!\big(0,\ V(\alpha,F)\big),$$
其中漸近變異 $V$ 可由影響函數的平方期望 $\int \mathrm{IF}^2\,dF$ 算出。對稱母體下 $\mu_\alpha=\mu$,故修剪平均仍不偏估計中心。
定量小範例
設一筆學生反應時間(毫秒):$\{180,\,195,\,200,\,205,\,210,\,215,\,220,\,230,\,250,\,980\}$,$n=10$,其中 $980$ 為儀器誤觸的離群值。
算術平均:總和 $=2885$,$\bar X=288.5$ ms——被單一離群值嚴重拉高。
10% 修剪平均($\alpha=0.1$,$g=\lfloor 1\rfloor=1$):去掉最小 $180$ 與最大 $980$,
$$\bar{X}_{0.1}=\frac{195+200+205+210+215+220+230+250}{8}=\frac{1725}{8}=215.6\text{ ms}.$$
加權平均(示意逆變異數):若已知後段量測較不穩定,給前八個穩定觀測 $w=2$、給 $250$ 與 $980$ 各 $w=0.5$:
$$\bar{X}_w=\frac{2(195+\cdots+230)+0.5(250)+0.5(980)}{2\times8+0.5+0.5}=\frac{2(1470)+615}{17}=\frac{3555}{17}\approx 209.1\text{ ms}.$$
三個數字相差懸殊($288.5$ vs $215.6$ vs $209.1$),具體呈現「估計量選擇」如何左右結論。修剪平均 $215.6$ ms 顯然更貼近資料主體的中心。
穩健統計的統一框架:M-估計
修剪平均其實是更一般的 M-估計量的特例。M-估計把中心 $\mu$ 定義為求解
$$\sum_{i=1}^{n}\psi\!\left(\frac{X_i-\hat\mu}{s}\right)=0$$
的根,其中 $s$ 為穩健尺度(如 MAD,median absolute deviation)。取 $\psi(u)=u$ 還原成算術平均;取 Huber 的 $\psi_k(u)=\max(-k,\min(k,u))$ 則對小殘差線性、對大殘差封頂,在常態下幾乎和 $\bar X$ 一樣有效,遇污染又能限制單點影響。Tukey 的 biweight 更進一步把極端值權重歸零。這個 $\psi$ 函數正是影響函數的形狀,於是「選 $\psi$」=「選你願意承受的影響函數」,把估計量設計變成一個可量化的工程決策。
素養提醒:穩健不等於正確
最後務必澄清三點常見誤解。其一,穩健統計處理的是「污染與離群」,不是「因果」:用修剪平均得到較穩定的組間差,仍只是相關性描述,能否歸因於處理仍取決於研究設計與隨機化。其二,丟掉離群值不是「作弊」也不是萬靈丹——若極端值來自真實的重尾母體(如所得、地震規模),修剪會系統性低估尾端風險,此時應該建模尾部而非刪除。其三,加權必須有明確理由(變異數結構或抽樣設計),任意加權等於暗中植入研究者偏好。穩健工具讓估計對假設違反更不敏感,但它無法替代對資料生成過程的理解。
深入探討(研究所視角)
從泛函分析的角度,位置估計量是統計泛函 $T(F)$,其在經驗分布 $F_n$ 上的取值 $T(F_n)$ 之大樣本行為由 von Mises 展開主導:$T(F_n)\approx T(F)+\frac{1}{n}\sum_i \mathrm{IF}(X_i;T,F)$,於是 $\sqrt{n}(T(F_n)-T(F))\xrightarrow{d}\mathcal{N}(0,\int \mathrm{IF}^2\,dF)$。這把前述各估計量的漸近常態性收攏為單一機制:影響函數的二階矩即漸近變異,而其上確界(gross-error sensitivity)刻畫最壞情況的偏誤。Hampel 的最佳穩健性問題即:在「影響函數有界於 $b$」的約束下,最小化漸近變異——解恰為 Huber 估計,給了它最小最大(minimax)意義下的最優地位,呼應 Huber 對污染鄰域 $(1-\varepsilon)F+\varepsilon H$ 的 minimax variance 結果。
最大概似與穩健性的張力在此清晰:MLE 在指定模型下達到 Cramér–Rao 下界(漸近效率 $1$),但其 $\psi=-f'/f$(score function)通常無界——常態 MLE 即 $\bar X$,故 MLE 的「最優」是以模型完全正確為前提的脆弱最優。動差法(method of moments)則更脆弱,因樣本動差的影響函數隨階數成多項式增長。穩健估計刻意放棄一點漸近效率(在常態下 Huber 約 $95\%$),換取在模型誤設鄰域內的穩定表現——這是 bias–variance 之外的第三軸:效率–穩健權衡。
貝氏對應同樣自然。逆變異數加權平均正是常態–常態共軛下的後驗平均:以 $X_i\mid\mu\sim\mathcal{N}(\mu,\sigma_i^2)$ 與平坦先驗,後驗精度為各觀測精度之和,後驗均值即 $\sum(X_i/\sigma_i^2)/\sum(1/\sigma_i^2)$——加權平均的最佳性在此化為後驗最優性。而穩健貝氏則以重尾似然(如 Student-$t$ 取代常態)達成自動修剪:$t$ 分布的 score function 在大殘差處回落(redescending),效果近似 Tukey biweight,使後驗對離群值不敏感,無需硬性刪除資料。階層模型(hierarchical / random-effects)更把 meta-analysis 的逆變異數加權推廣為「以研究間異質性 $\tau^2$ 校正的收縮加權」,James–Stein 收縮即其頻率派影子。
與現代機器學習的連結尤其深。穩健回歸的損失函數設計(Huber loss、Tukey loss、$\varepsilon$-insensitive loss)直接源於 $\psi$ 函數理論;trimmed loss 對應 least trimmed squares 與穩健 PCA。在因果推論中,逆機率加權(IPW)估計量本質是加權平均的推廣,但已知對極端傾向分數高度不穩——其影響函數隨權重發散,故發展出修剪權重、重疊權重(overlap weights)與雙重穩健(doubly robust)的 AIPW 估計量,後者以半參數效率理論中的影響函數為設計核心,達到 efficient influence function 所界定的半參數效率下界。可見從十九世紀的算術平均到當代因果機器學習,貫穿其中的是同一條主線:估計量由其影響函數定義,而統計推論的藝術,在於選擇一條你願意為之負責的影響曲線。