排列、組合與計數原理：離散機率推論的骨架

從乘法原理到二項、多項與超幾何分布，看計數量如何撐起機率測度、矩運算與估計理論

進階 · 約 12 分鐘 ·#計數原理#組合數學#二項分布#超幾何分布#最大概似估計#貝氏推論

從計數到機率：為什麼組合學是統計推論的骨架

直覺上，「排列與組合」像是高中課本裡數糖果、排座位的小技巧。但若把鏡頭拉到統計推論的尺度，計數原理其實是離散機率測度的建構基礎：每一個古典機率、每一個離散分布的常數項、每一個概似函數的「組態數」，都隱藏著一個計數論證。本文不再停留在「公式怎麼背」，而是要說清楚這些計數量如何成為機率質量、如何進入估計，以及它們在漸近、貝氏與現代學習理論裡的角色。

我們從最基本的乘法原理出發。若一個實驗可分解為 $k$ 個相繼步驟，第 $i$ 步有 $n_i$ 種互不影響的結果，則總組態數為 $\prod_{i=1}^{k} n_i$。排列是其特例：從 $n$ 個相異元素中有序取出 $r$ 個，

$$P(n, r) = \frac{n!}{(n-r)!} = n (n-1)\cdots(n-r+1).$$

當我們「忽略順序」時，需除掉 $r$ 個被取元素的內部排列數 $r!$，得到組合數

$$\binom{n}{r} = \frac{P(n,r)}{r!} = \frac{n!}{r!\,(n-r)!}.$$

這個「除以對稱群階數」的動作，正是後續所有「不可區分性」（exchangeability）論證的雛形。

排列、組合與計數原理概念示意圖

計數作為機率測度的生成元

古典機率的定義 $P(A) = |A| / |\Omega|$ 之所以是良定義的機率測度，前提是樣本空間 $\Omega$ 的每個結果等可能，而 $|A|$、$|\Omega|$ 都得用計數原理算出。最關鍵的離散分布，其機率質量函數（PMF）本質上是「組態數的歸一化」。

以二項分布為例。設 $X \sim \text{Binomial}(n, p)$，在 $n$ 次獨立伯努利試驗中觀察到 $k$ 次成功。任一條「恰有 $k$ 次成功」的特定序列出現的機率是 $p^k (1-p)^{n-k}$，而這樣的序列共有 $\binom{n}{k}$ 條（從 $n$ 個位置選 $k$ 個放成功），因此

$$P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}.$$

那個 $\binom{n}{k}$ 並非裝飾，它是把「不同排列、相同計數」的事件合併起來的多重性（multiplicity）。二項定理 $\sum_{k=0}^{n}\binom{n}{k}p^k(1-p)^{n-k} = (p + (1-p))^n = 1$ 同時保證了歸一化——計數恆等式直接撐起了機率公理。

推廣到多類別，多項分布的 PMF 為

$$P(X_1=k_1,\dots,X_m=k_m) = \binom{n}{k_1,\dots,k_m}\prod_{j=1}^{m} p_j^{k_j},\quad \binom{n}{k_1,\dots,k_m}=\frac{n!}{k_1!\cdots k_m!},$$

其中多項係數計數的是「把 $n$ 個有序試驗分配到 $m$ 個類別」的方式數。超幾何分布則用組合數刻畫無放回抽樣：$P(X=k)=\binom{K}{k}\binom{N-K}{n-k}\big/\binom{N}{n}$。這三者構成抽樣理論的核心，全靠計數量編碼了「對稱事件的重數」。

期望值與變異數：從計數恆等式推導

計數恆等式不只給 PMF，也給矩。二項分布的期望值可用指標變數分解：寫 $X=\sum_{i=1}^n I_i$，$I_i$ 為第 $i$ 次試驗成功的指標，則 $E[X]=\sum_i E[I_i]=np$。但若堅持從組合定義直接推，需用到 $k\binom{n}{k}=n\binom{n-1}{k-1}$ 這個吸收恆等式（absorption identity）：

$$E[X]=\sum_{k=0}^{n}k\binom{n}{k}p^k(1-p)^{n-k}=np\sum_{k=1}^{n}\binom{n-1}{k-1}p^{k-1}(1-p)^{n-k}=np.$$

最後一步把括號內整理成 $\text{Binomial}(n-1)$ 的全機率和（等於 1）。同理由 $E[X(X-1)]=n(n-1)p^2$ 可得 $\operatorname{Var}(X)=np(1-p)$。這顯示「組合恆等式 ↔ 矩」是雙向翻譯：每個 Vandermonde 恆等式 $\sum_k\binom{m}{k}\binom{n}{r-k}=\binom{m+n}{r}$ 在機率上對應一個卷積（如二項的可加性）。

定量小範例：無放回抽樣的中獎機率

某課程修課名單有 12 人，其中 4 人已完成補充作業。助教隨機抽 5 人公開展示，問「恰有 2 人完成補充作業」的機率，以及被抽到的完成人數 $X$ 的期望值。

這是超幾何問題：$N=12$、$K=4$、$n=5$。

$$P(X=2)=\frac{\binom{4}{2}\binom{8}{3}}{\binom{12}{5}}=\frac{6\times 56}{792}=\frac{336}{792}=\frac{14}{33}\approx 0.424.$$

計算細節：$\binom{4}{2}=6$、$\binom{8}{3}=\frac{8\cdot7\cdot6}{6}=56$、$\binom{12}{5}=792$。期望值用超幾何公式 $E[X]=n\frac{K}{N}=5\times\frac{4}{12}=\frac{5}{3}\approx 1.667$；變異數 $\operatorname{Var}(X)=n\frac{K}{N}\frac{N-K}{N}\frac{N-n}{N-1}=5\cdot\frac13\cdot\frac23\cdot\frac{7}{11}=\frac{70}{99}\approx 0.707$。請注意末項 $\frac{N-n}{N-1}$ 是「有限母體修正」，反映無放回比有放回（二項）變異更小——這是抽樣設計裡常被忽略的細節。

統計素養：別把計數量讀成因果或確定性

計數給的是機率，不是命運。上例 $P(X=2)\approx 0.424$ 描述的是隨機抽樣機制下的長期相對頻率，不代表「這次一定抽到 2 人」，更不能因為某次真的抽到 2 人就反推抽樣有偏。另外，當我們用組合模型配適真實資料（如以二項近似投票、以超幾何檢定 $2\times 2$ 列聯表，即 Fisher 精確檢定），其有效性完全依賴「可交換」與「等可能」假設。若個體間有依賴或選擇偏差，計數對稱性破裂，模型就失真——這時得到的 p 值或信賴區間都不可照字面解讀。永遠先問：我的對稱性假設成立嗎？

深入探討（研究所視角）

把計數原理推到研究所層次，第一個關鍵是漸近行為。組合量在大 $n$ 下由 Stirling 近似 $n!\sim\sqrt{2\pi n}\,(n/e)^n$ 主導，由此可導出二項係數的熵率刻畫：$\binom{n}{\lfloor \alpha n\rfloor}\approx 2^{nH(\alpha)}/\sqrt{2\pi n\alpha(1-\alpha)}$，其中 $H(\alpha)=-\alpha\log_2\alpha-(1-\alpha)\log_2(1-\alpha)$ 為二元熵。這條「計數—熵」對偶是大偏差理論（large deviations）的入口：Sanov 定理把經驗分布偏離真值的指數速率寫成 KL 散度，而其組合來源正是多項係數的對數漸近 $\frac1n\log\binom{n}{n p_1,\dots,n p_m}\to H(p)$。換言之，資訊論的熵與相對熵，根本是計數多重性的連續極限。

第二個面向是估計理論。把二項視為指數族 $f(k;\theta)=\binom{n}{k}\exp\{k\theta - n\log(1+e^\theta)\}$，$\theta=\log\frac{p}{1-p}$ 為自然參數。組合常數 $\binom{n}{k}$ 進入底測度，不含 $\theta$，故與得分函數無關——這解釋了為何最大概似估計（MLE）$\hat p=k/n$ 不受計數常數影響，且動差法（method of moments）在此給出相同估計量。由指數族正則性，$\hat p$ 滿足漸近常態 $\sqrt{n}(\hat p-p)\xrightarrow{d}\mathcal N(0, p(1-p))$，其漸近變異恰是 Fisher 資訊 $I(p)=n/[p(1-p)]$ 的倒數（達到 Cramér–Rao 下界），這也是 Wald 型信賴區間的理論依據。但要提醒：當 $p$ 接近 0 或 1，Wald 區間覆蓋率崩壞，研究上偏好 Wilson 或 Agresti–Coull 區間——這是「漸近正確不等於有限樣本可靠」的經典教訓。

第三是貝氏對應。在二項概似上放 Beta 共軛先驗 $\text{Beta}(\alpha,\beta)$，後驗為 $\text{Beta}(\alpha+k,\beta+n-k)$。此處組合係數在邊際概似（marginal likelihood）裡與 Beta 函數結合，給出 Beta–Binomial 分布 $P(k)=\binom{n}{k}\frac{B(\alpha+k,\beta+n-k)}{B(\alpha,\beta)}$，它正是過度離散（overdispersion）的標準模型。更深一層，de Finetti 表現定理指出：一個無限可交換的 0/1 序列，其聯合分布必可寫成伯努利的混合——這把「計數對稱性（可交換性）」直接昇華為貝氏階層模型的存在性定理，可謂組合直覺的最高抽象。

最後談與機器學習與因果推論的連結。組合計數支撐了統計學習理論的容量度量：VC 維與 growth function $\Pi_{\mathcal H}(n)$ 由 Sauer–Shelah 引理界定為 $\sum_{i=0}^{d}\binom{n}{i}=O(n^d)$，這個多項式上界正是泛化界（generalization bound）的核心。在因果推論裡，隨機化實驗的精確（permutation/randomization）檢定，其虛無分布是對所有 $\binom{N}{n}$ 種處理指派的列舉——計數定義了 design-based 推論的參照集，無需任何分布假設。然而切記：計數能量化「在隨機指派下觀測到此效應有多罕見」，但唯有隨機化機制本身才賦予因果解釋；觀察性資料即便算出再漂亮的組合機率，也不能僅憑此把相關升級為因果。

← 上一篇

量化不確定性的語言：從樣本空間到機率公理

隨機過程與馬可夫鏈入門：從無記憶性到平穩分布與估計

--

1

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings