排列、組合與計數原理:離散機率推論的骨架
從乘法原理到二項、多項與超幾何分布,看計數量如何撐起機率測度、矩運算與估計理論
從計數到機率:為什麼組合學是統計推論的骨架
直覺上,「排列與組合」像是高中課本裡數糖果、排座位的小技巧。但若把鏡頭拉到統計推論的尺度,計數原理其實是離散機率測度的建構基礎:每一個古典機率、每一個離散分布的常數項、每一個概似函數的「組態數」,都隱藏著一個計數論證。本文不再停留在「公式怎麼背」,而是要說清楚這些計數量如何成為機率質量、如何進入估計,以及它們在漸近、貝氏與現代學習理論裡的角色。
我們從最基本的乘法原理出發。若一個實驗可分解為 $k$ 個相繼步驟,第 $i$ 步有 $n_i$ 種互不影響的結果,則總組態數為 $\prod_{i=1}^{k} n_i$。排列是其特例:從 $n$ 個相異元素中有序取出 $r$ 個,
$$P(n, r) = \frac{n!}{(n-r)!} = n (n-1)\cdots(n-r+1).$$
當我們「忽略順序」時,需除掉 $r$ 個被取元素的內部排列數 $r!$,得到組合數
$$\binom{n}{r} = \frac{P(n,r)}{r!} = \frac{n!}{r!\,(n-r)!}.$$
這個「除以對稱群階數」的動作,正是後續所有「不可區分性」(exchangeability)論證的雛形。

計數作為機率測度的生成元
古典機率的定義 $P(A) = |A| / |\Omega|$ 之所以是良定義的機率測度,前提是樣本空間 $\Omega$ 的每個結果等可能,而 $|A|$、$|\Omega|$ 都得用計數原理算出。最關鍵的離散分布,其機率質量函數(PMF)本質上是「組態數的歸一化」。
以二項分布為例。設 $X \sim \text{Binomial}(n, p)$,在 $n$ 次獨立伯努利試驗中觀察到 $k$ 次成功。任一條「恰有 $k$ 次成功」的特定序列出現的機率是 $p^k (1-p)^{n-k}$,而這樣的序列共有 $\binom{n}{k}$ 條(從 $n$ 個位置選 $k$ 個放成功),因此
$$P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}.$$
那個 $\binom{n}{k}$ 並非裝飾,它是把「不同排列、相同計數」的事件合併起來的多重性(multiplicity)。二項定理 $\sum_{k=0}^{n}\binom{n}{k}p^k(1-p)^{n-k} = (p + (1-p))^n = 1$ 同時保證了歸一化——計數恆等式直接撐起了機率公理。
推廣到多類別,多項分布的 PMF 為
$$P(X_1=k_1,\dots,X_m=k_m) = \binom{n}{k_1,\dots,k_m}\prod_{j=1}^{m} p_j^{k_j},\quad \binom{n}{k_1,\dots,k_m}=\frac{n!}{k_1!\cdots k_m!},$$
其中多項係數計數的是「把 $n$ 個有序試驗分配到 $m$ 個類別」的方式數。超幾何分布則用組合數刻畫無放回抽樣:$P(X=k)=\binom{K}{k}\binom{N-K}{n-k}\big/\binom{N}{n}$。這三者構成抽樣理論的核心,全靠計數量編碼了「對稱事件的重數」。
期望值與變異數:從計數恆等式推導
計數恆等式不只給 PMF,也給矩。二項分布的期望值可用指標變數分解:寫 $X=\sum_{i=1}^n I_i$,$I_i$ 為第 $i$ 次試驗成功的指標,則 $E[X]=\sum_i E[I_i]=np$。但若堅持從組合定義直接推,需用到 $k\binom{n}{k}=n\binom{n-1}{k-1}$ 這個吸收恆等式(absorption identity):
$$E[X]=\sum_{k=0}^{n}k\binom{n}{k}p^k(1-p)^{n-k}=np\sum_{k=1}^{n}\binom{n-1}{k-1}p^{k-1}(1-p)^{n-k}=np.$$
最後一步把括號內整理成 $\text{Binomial}(n-1)$ 的全機率和(等於 1)。同理由 $E[X(X-1)]=n(n-1)p^2$ 可得 $\operatorname{Var}(X)=np(1-p)$。這顯示「組合恆等式 ↔ 矩」是雙向翻譯:每個 Vandermonde 恆等式 $\sum_k\binom{m}{k}\binom{n}{r-k}=\binom{m+n}{r}$ 在機率上對應一個卷積(如二項的可加性)。
定量小範例:無放回抽樣的中獎機率
某課程修課名單有 12 人,其中 4 人已完成補充作業。助教隨機抽 5 人公開展示,問「恰有 2 人完成補充作業」的機率,以及被抽到的完成人數 $X$ 的期望值。
這是超幾何問題:$N=12$、$K=4$、$n=5$。
$$P(X=2)=\frac{\binom{4}{2}\binom{8}{3}}{\binom{12}{5}}=\frac{6\times 56}{792}=\frac{336}{792}=\frac{14}{33}\approx 0.424.$$
計算細節:$\binom{4}{2}=6$、$\binom{8}{3}=\frac{8\cdot7\cdot6}{6}=56$、$\binom{12}{5}=792$。期望值用超幾何公式 $E[X]=n\frac{K}{N}=5\times\frac{4}{12}=\frac{5}{3}\approx 1.667$;變異數 $\operatorname{Var}(X)=n\frac{K}{N}\frac{N-K}{N}\frac{N-n}{N-1}=5\cdot\frac13\cdot\frac23\cdot\frac{7}{11}=\frac{70}{99}\approx 0.707$。請注意末項 $\frac{N-n}{N-1}$ 是「有限母體修正」,反映無放回比有放回(二項)變異更小——這是抽樣設計裡常被忽略的細節。
統計素養:別把計數量讀成因果或確定性
計數給的是機率,不是命運。上例 $P(X=2)\approx 0.424$ 描述的是隨機抽樣機制下的長期相對頻率,不代表「這次一定抽到 2 人」,更不能因為某次真的抽到 2 人就反推抽樣有偏。另外,當我們用組合模型配適真實資料(如以二項近似投票、以超幾何檢定 $2\times 2$ 列聯表,即 Fisher 精確檢定),其有效性完全依賴「可交換」與「等可能」假設。若個體間有依賴或選擇偏差,計數對稱性破裂,模型就失真——這時得到的 p 值或信賴區間都不可照字面解讀。永遠先問:我的對稱性假設成立嗎?
深入探討(研究所視角)
把計數原理推到研究所層次,第一個關鍵是漸近行為。組合量在大 $n$ 下由 Stirling 近似 $n!\sim\sqrt{2\pi n}\,(n/e)^n$ 主導,由此可導出二項係數的熵率刻畫:$\binom{n}{\lfloor \alpha n\rfloor}\approx 2^{nH(\alpha)}/\sqrt{2\pi n\alpha(1-\alpha)}$,其中 $H(\alpha)=-\alpha\log_2\alpha-(1-\alpha)\log_2(1-\alpha)$ 為二元熵。這條「計數—熵」對偶是大偏差理論(large deviations)的入口:Sanov 定理把經驗分布偏離真值的指數速率寫成 KL 散度,而其組合來源正是多項係數的對數漸近 $\frac1n\log\binom{n}{n p_1,\dots,n p_m}\to H(p)$。換言之,資訊論的熵與相對熵,根本是計數多重性的連續極限。
第二個面向是估計理論。把二項視為指數族 $f(k;\theta)=\binom{n}{k}\exp\{k\theta - n\log(1+e^\theta)\}$,$\theta=\log\frac{p}{1-p}$ 為自然參數。組合常數 $\binom{n}{k}$ 進入底測度,不含 $\theta$,故與得分函數無關——這解釋了為何最大概似估計(MLE)$\hat p=k/n$ 不受計數常數影響,且動差法(method of moments)在此給出相同估計量。由指數族正則性,$\hat p$ 滿足漸近常態 $\sqrt{n}(\hat p-p)\xrightarrow{d}\mathcal N(0, p(1-p))$,其漸近變異恰是 Fisher 資訊 $I(p)=n/[p(1-p)]$ 的倒數(達到 Cramér–Rao 下界),這也是 Wald 型信賴區間的理論依據。但要提醒:當 $p$ 接近 0 或 1,Wald 區間覆蓋率崩壞,研究上偏好 Wilson 或 Agresti–Coull 區間——這是「漸近正確不等於有限樣本可靠」的經典教訓。
第三是貝氏對應。在二項概似上放 Beta 共軛先驗 $\text{Beta}(\alpha,\beta)$,後驗為 $\text{Beta}(\alpha+k,\beta+n-k)$。此處組合係數在邊際概似(marginal likelihood)裡與 Beta 函數結合,給出 Beta–Binomial 分布 $P(k)=\binom{n}{k}\frac{B(\alpha+k,\beta+n-k)}{B(\alpha,\beta)}$,它正是過度離散(overdispersion)的標準模型。更深一層,de Finetti 表現定理指出:一個無限可交換的 0/1 序列,其聯合分布必可寫成伯努利的混合——這把「計數對稱性(可交換性)」直接昇華為貝氏階層模型的存在性定理,可謂組合直覺的最高抽象。
最後談與機器學習與因果推論的連結。組合計數支撐了統計學習理論的容量度量:VC 維與 growth function $\Pi_{\mathcal H}(n)$ 由 Sauer–Shelah 引理界定為 $\sum_{i=0}^{d}\binom{n}{i}=O(n^d)$,這個多項式上界正是泛化界(generalization bound)的核心。在因果推論裡,隨機化實驗的精確(permutation/randomization)檢定,其虛無分布是對所有 $\binom{N}{n}$ 種處理指派的列舉——計數定義了 design-based 推論的參照集,無需任何分布假設。然而切記:計數能量化「在隨機指派下觀測到此效應有多罕見」,但唯有隨機化機制本身才賦予因果解釋;觀察性資料即便算出再漂亮的組合機率,也不能僅憑此把相關升級為因果。