隨機過程與馬可夫鏈入門：從無記憶性到平穩分布與估計

嚴謹推導轉移矩陣、Chapman–Kolmogorov 方程、遍歷定理，並從資料估計轉移機率

進階 · 約 13 分鐘 ·#馬可夫鏈#隨機過程#平穩分布#轉移矩陣#最大概似估計#遍歷定理

從「無記憶」開始：為什麼隨機過程值得認真看待

許多真實系統的下一步只取決於「現在在哪裡」，而不在乎「怎麼走到這裡的」——天氣、排隊長度、基因序列、網頁瀏覽路徑皆然。這種「無記憶」的結構若能成立，整個高維時序的分析就能被壓縮成一張轉移機率表，這正是馬可夫鏈之所以強大的原因。本文從隨機過程的定義出發，嚴謹地推導馬可夫鏈的核心性質、平穩分布與其估計問題，面向已具備機率基礎的學習者。

形式上，一個隨機過程是一族隨機變數 $\{X_t\}_{t \in T}$，定義在同一機率空間上，索引集 $T$ 可為離散（如 $\mathbb{N}$）或連續（如 $[0,\infty)$）。當每個 $X_t$ 取值於有限或可數的狀態空間 $S$ 時，我們稱之為離散狀態鏈。理解隨機過程的關鍵，是把「整條軌跡」視為一個樣本點，而非單一時刻的數值。

隨機過程與馬可夫鏈入門概念示意圖

馬可夫性質與轉移矩陣

一個離散時間隨機過程 $\{X_t\}$ 滿足馬可夫性質（一階），若對所有 $t$ 與任意狀態 $i_0, \dots, i_{t+1}$，

$$ P(X_{t+1}=j \mid X_t=i, X_{t-1}=i_{t-1}, \dots, X_0=i_0) = P(X_{t+1}=j \mid X_t=i). $$

換言之，給定現在，未來與過去條件獨立。若此條件機率不隨 $t$ 改變，稱為時齊（time-homogeneous），此時可定義轉移機率 $p_{ij} = P(X_{t+1}=j \mid X_t=i)$，並整理成轉移矩陣 $P = [p_{ij}]$。$P$ 是一個隨機矩陣：每列非負且和為 $1$，即 $\sum_{j} p_{ij}=1$。

由全機率公式可推出 $n$ 步轉移的核心結果——Chapman–Kolmogorov 方程。令 $p_{ij}^{(n)}=P(X_{t+n}=j \mid X_t=i)$，則

$$ p_{ij}^{(m+n)} = \sum_{k \in S} p_{ik}^{(m)}\, p_{kj}^{(n)}. $$

其推導只需對中間時刻 $X_{t+m}$ 的狀態 $k$ 做分割，並反覆使用馬可夫性質消去更早的歷史。寫成矩陣形式即 $P^{(m+n)}=P^{(m)}P^{(n)}$，因此 $n$ 步轉移矩陣就是 $P^n$。若初始分布為列向量 $\pi^{(0)}$，則 $t$ 時刻的邊際分布為 $\pi^{(t)}=\pi^{(0)}P^t$。整個鏈的演化被化約為矩陣冪次運算，這正是馬可夫模型在計算上的便利所在。

平穩分布與遍歷定理

我們最關心鏈的長期行為。一個機率分布 $\pi$（列向量、各項非負、和為 $1$）稱為平穩分布，若

$$ \pi P = \pi, \qquad \text{即} \quad \pi_j = \sum_{i} \pi_i\, p_{ij}. $$

這是 $P^{\top}$ 對應特徵值 $1$ 的左特徵向量。若鏈為不可約（任兩狀態互相可達）且非週期，則由 Perron–Frobenius 理論可保證平穩分布存在且唯一，並且

$$ \lim_{n \to \infty} p_{ij}^{(n)} = \pi_j \quad \text{對所有 } i. $$

更強的是遍歷定理：對任意有界函數 $f$，時間平均收斂到空間平均，

$$ \frac{1}{n}\sum_{t=1}^{n} f(X_t) \xrightarrow{\text{a.s.}} \sum_{j} \pi_j\, f(j). $$

這保證了我們能用「單一條夠長的軌跡」估計穩態量，是 MCMC（馬可夫鏈蒙地卡羅）方法的理論基石。一個檢驗平穩性的充分條件是細緻平衡（detailed balance）：若存在 $\pi$ 使 $\pi_i p_{ij}=\pi_j p_{ji}$ 對所有 $i,j$ 成立，則 $\pi$ 必為平穩分布（對 $i$ 求和即得 $\pi P=\pi$），此時鏈稱為可逆。

定量小範例：兩狀態天氣鏈

設狀態 $S=\{\text{晴}, \text{雨}\}$，轉移矩陣

$$ P=\begin{pmatrix} 0.8 & 0.2 \\ 0.4 & 0.6 \end{pmatrix}, $$

即晴天後仍晴的機率 $0.8$、雨天後轉晴的機率 $0.4$。求平穩分布 $\pi=(\pi_1,\pi_2)$。

由 $\pi P=\pi$ 取第一個分量：$\pi_1 = 0.8\pi_1 + 0.4\pi_2$，整理得 $0.2\pi_1 = 0.4\pi_2$，即 $\pi_1 = 2\pi_2$。配合歸一化 $\pi_1+\pi_2=1$，解得

$$ \pi_2 = \tfrac{1}{3}, \qquad \pi_1 = \tfrac{2}{3}. $$

長期而言約有三分之二的日子是晴天。再算雨天的平均回返時間：可逆鏈中 $\mathbb{E}[\text{回返時間到狀態 } i] = 1/\pi_i$，故雨天平均每 $1/\pi_2 = 3$ 天回返一次。若想知道收斂速度，可看 $P$ 的第二特徵值 $\lambda_2 = (0.8+0.6)-1 = 0.4$（兩狀態鏈中 $\lambda_2 = p_{11}+p_{22}-1$），偏離穩態的量以 $|\lambda_2|^n=0.4^n$ 幾何遞減，譜隙 $1-|\lambda_2|=0.6$ 越大收斂越快。

從資料估計轉移機率

實務上 $P$ 未知，需從觀測軌跡估計。給定一條長度 $n+1$ 的序列，令 $N_{ij}$ 為「由 $i$ 緊接到 $j$」的轉移次數，$N_i=\sum_j N_{ij}$ 為離開 $i$ 的總次數。在時齊假設下，序列的對數概似為

$$ \ell(P) = \sum_{i,j} N_{ij}\,\log p_{ij}. $$

在約束 $\sum_j p_{ij}=1$ 下，對每一列以 Lagrange 乘子最大化，可得最大概似估計

$$ \hat{p}_{ij} = \frac{N_{ij}}{N_i}. $$

直覺上就是「從 $i$ 出發時，跑去 $j$ 的相對頻率」。這同時也是動差估計的結果。需特別提醒：此估計的標準誤與信賴區間並非獨立樣本下的二項公式，因為觀測值彼此相依；正確的不確定性需透過下一段的漸近理論或 bootstrap（對軌跡做 block bootstrap）來量化。把「估到 $\hat p_{ij}$ 較高」直接解讀為「$i$ 導致 $j$」更是過度詮釋——轉移機率刻畫的是條件關聯，而非因果機制，混淆變項與選樣同樣可能扭曲它。

深入探討（研究所視角）

馬可夫鏈 MLE 的漸近性質可用鞅中心極限定理處理。注意分數函數 $\sum_t \big(\mathbf{1}\{X_t=i, X_{t+1}=j\} - p_{ij}\mathbf{1}\{X_t=i\}\big)$ 是相對於自然濾過的鞅差序列，因此即便資料相依，在不可約非週期條件下仍有 $\sqrt{n}(\hat p_{ij}-p_{ij}) \xrightarrow{d} N(0, \sigma_{ij}^2)$，其中 $\sigma_{ij}^2 = p_{ij}(1-p_{ij})/\pi_i$。$\pi_i$ 出現在分母揭示了關鍵：罕見狀態（$\pi_i$ 小）被造訪次數少，估計變異必然大，這是「相依資料的有效樣本量」概念的具體展現。Fisher 資訊矩陣在此為區塊對角，各列獨立，呼應了逐列估計的合理性。

貝氏對應極為自然：對每列轉移機率向量取 Dirichlet 先驗 $\text{Dir}(\alpha_{i1},\dots)$，因其與多項式概似共軛，後驗為 $\text{Dir}(\alpha_{ij}+N_{ij})$，後驗期望 $(\alpha_{ij}+N_{ij})/(\sum_j \alpha_{ij}+N_i)$ 即帶 Laplace 平滑的估計，恰好處理 $N_i=0$ 時 MLE 未定義的稀疏問題。在語言模型的 $n$-gram 時代，這類平滑（Lidstone、Good–Turing）正是核心技術，而現代序列模型可視為以神經網路取代查表式轉移矩陣的高階推廣。

模型選擇上，「一階是否足夠」是可檢驗的：對「二階 vs 一階」做概似比檢定，統計量 $2(\ell_2-\ell_1)$ 在虛無下漸近 $\chi^2$，自由度為參數差；或用 AIC/BIC 在階數與隱藏狀態數間權衡。當狀態不可直接觀測時，即推廣為隱馬可夫模型（HMM），其 MLE 透過 Baum–Welch（EM 的特例）求解，前向–後向演算法計算後驗。連續時間版本則以生成元矩陣 $Q$ 描述，$P(t)=e^{Qt}$，是存活分析與排隊論的語言。

與因果推論的連結需審慎：轉移矩陣是觀測性的條件分布，要賦予因果意義須額外假設（如無未測量混淆、干預下的不變性）。Pearl 的結構因果模型與動態處理機制（dynamic treatment regimes）中的馬可夫決策過程（MDP）正是橋樑——MDP 在轉移上疊加動作與獎勵，使「策略評估」成為良定義的因果問題，這也是強化學習與序貫決策的理論起點。最後務必牢記：再長的軌跡也只校準我們對隨機性的描述，平穩分布是頻率而非命運，遍歷收斂保證的是平均而非個別預測。

← 上一篇

排列、組合與計數原理：離散機率推論的骨架

--

1

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings