Home
探索 Uedu
學生控制台
註冊會員/登入
研究知情同意中心
教師控制台
課程設定
支援與訊息
Uptime 數據

UeduGPTs

--

Jupyters

2

UG26 CISOSE26
臺北 AQI 26 · 臺中 AQI 19 · 臺南 AQI 18 · 高雄 AQI 17

AI 回覆桌面通知

AI 助教回覆完成時顯示桌面通知

聊天訊息通知

同學在討論區發送訊息時通知

聲音通知

每當有新通知時播放提示音

機率基礎

隨機過程與馬可夫鏈入門:從無記憶性到平穩分布與估計

嚴謹推導轉移矩陣、Chapman–Kolmogorov 方程、遍歷定理,並從資料估計轉移機率

從「無記憶」開始:為什麼隨機過程值得認真看待

許多真實系統的下一步只取決於「現在在哪裡」,而不在乎「怎麼走到這裡的」——天氣、排隊長度、基因序列、網頁瀏覽路徑皆然。這種「無記憶」的結構若能成立,整個高維時序的分析就能被壓縮成一張轉移機率表,這正是馬可夫鏈之所以強大的原因。本文從隨機過程的定義出發,嚴謹地推導馬可夫鏈的核心性質、平穩分布與其估計問題,面向已具備機率基礎的學習者。

形式上,一個隨機過程是一族隨機變數 $\{X_t\}_{t \in T}$,定義在同一機率空間上,索引集 $T$ 可為離散(如 $\mathbb{N}$)或連續(如 $[0,\infty)$)。當每個 $X_t$ 取值於有限或可數的狀態空間 $S$ 時,我們稱之為離散狀態鏈。理解隨機過程的關鍵,是把「整條軌跡」視為一個樣本點,而非單一時刻的數值。

隨機過程與馬可夫鏈入門概念示意圖

馬可夫性質與轉移矩陣

一個離散時間隨機過程 $\{X_t\}$ 滿足馬可夫性質(一階),若對所有 $t$ 與任意狀態 $i_0, \dots, i_{t+1}$,

$$ P(X_{t+1}=j \mid X_t=i, X_{t-1}=i_{t-1}, \dots, X_0=i_0) = P(X_{t+1}=j \mid X_t=i). $$

換言之,給定現在,未來與過去條件獨立。若此條件機率不隨 $t$ 改變,稱為時齊(time-homogeneous),此時可定義轉移機率 $p_{ij} = P(X_{t+1}=j \mid X_t=i)$,並整理成轉移矩陣 $P = [p_{ij}]$。$P$ 是一個隨機矩陣:每列非負且和為 $1$,即 $\sum_{j} p_{ij}=1$。

由全機率公式可推出 $n$ 步轉移的核心結果——Chapman–Kolmogorov 方程。令 $p_{ij}^{(n)}=P(X_{t+n}=j \mid X_t=i)$,則

$$ p_{ij}^{(m+n)} = \sum_{k \in S} p_{ik}^{(m)}\, p_{kj}^{(n)}. $$

其推導只需對中間時刻 $X_{t+m}$ 的狀態 $k$ 做分割,並反覆使用馬可夫性質消去更早的歷史。寫成矩陣形式即 $P^{(m+n)}=P^{(m)}P^{(n)}$,因此 $n$ 步轉移矩陣就是 $P^n$。若初始分布為列向量 $\pi^{(0)}$,則 $t$ 時刻的邊際分布為 $\pi^{(t)}=\pi^{(0)}P^t$。整個鏈的演化被化約為矩陣冪次運算,這正是馬可夫模型在計算上的便利所在。

平穩分布與遍歷定理

我們最關心鏈的長期行為。一個機率分布 $\pi$(列向量、各項非負、和為 $1$)稱為平穩分布,若

$$ \pi P = \pi, \qquad \text{即} \quad \pi_j = \sum_{i} \pi_i\, p_{ij}. $$

這是 $P^{\top}$ 對應特徵值 $1$ 的左特徵向量。若鏈為不可約(任兩狀態互相可達)且非週期,則由 Perron–Frobenius 理論可保證平穩分布存在且唯一,並且

$$ \lim_{n \to \infty} p_{ij}^{(n)} = \pi_j \quad \text{對所有 } i. $$

更強的是遍歷定理:對任意有界函數 $f$,時間平均收斂到空間平均,

$$ \frac{1}{n}\sum_{t=1}^{n} f(X_t) \xrightarrow{\text{a.s.}} \sum_{j} \pi_j\, f(j). $$

這保證了我們能用「單一條夠長的軌跡」估計穩態量,是 MCMC(馬可夫鏈蒙地卡羅)方法的理論基石。一個檢驗平穩性的充分條件是細緻平衡(detailed balance):若存在 $\pi$ 使 $\pi_i p_{ij}=\pi_j p_{ji}$ 對所有 $i,j$ 成立,則 $\pi$ 必為平穩分布(對 $i$ 求和即得 $\pi P=\pi$),此時鏈稱為可逆。

定量小範例:兩狀態天氣鏈

設狀態 $S=\{\text{晴}, \text{雨}\}$,轉移矩陣

$$ P=\begin{pmatrix} 0.8 & 0.2 \\ 0.4 & 0.6 \end{pmatrix}, $$

即晴天後仍晴的機率 $0.8$、雨天後轉晴的機率 $0.4$。求平穩分布 $\pi=(\pi_1,\pi_2)$。

由 $\pi P=\pi$ 取第一個分量:$\pi_1 = 0.8\pi_1 + 0.4\pi_2$,整理得 $0.2\pi_1 = 0.4\pi_2$,即 $\pi_1 = 2\pi_2$。配合歸一化 $\pi_1+\pi_2=1$,解得

$$ \pi_2 = \tfrac{1}{3}, \qquad \pi_1 = \tfrac{2}{3}. $$

長期而言約有三分之二的日子是晴天。再算雨天的平均回返時間:可逆鏈中 $\mathbb{E}[\text{回返時間到狀態 } i] = 1/\pi_i$,故雨天平均每 $1/\pi_2 = 3$ 天回返一次。若想知道收斂速度,可看 $P$ 的第二特徵值 $\lambda_2 = (0.8+0.6)-1 = 0.4$(兩狀態鏈中 $\lambda_2 = p_{11}+p_{22}-1$),偏離穩態的量以 $|\lambda_2|^n=0.4^n$ 幾何遞減,譜隙 $1-|\lambda_2|=0.6$ 越大收斂越快。

從資料估計轉移機率

實務上 $P$ 未知,需從觀測軌跡估計。給定一條長度 $n+1$ 的序列,令 $N_{ij}$ 為「由 $i$ 緊接到 $j$」的轉移次數,$N_i=\sum_j N_{ij}$ 為離開 $i$ 的總次數。在時齊假設下,序列的對數概似

$$ \ell(P) = \sum_{i,j} N_{ij}\,\log p_{ij}. $$

在約束 $\sum_j p_{ij}=1$ 下,對每一列以 Lagrange 乘子最大化,可得最大概似估計

$$ \hat{p}_{ij} = \frac{N_{ij}}{N_i}. $$

直覺上就是「從 $i$ 出發時,跑去 $j$ 的相對頻率」。這同時也是動差估計的結果。需特別提醒:此估計的標準誤與信賴區間並非獨立樣本下的二項公式,因為觀測值彼此相依;正確的不確定性需透過下一段的漸近理論或 bootstrap(對軌跡做 block bootstrap)來量化。把「估到 $\hat p_{ij}$ 較高」直接解讀為「$i$ 導致 $j$」更是過度詮釋——轉移機率刻畫的是條件關聯,而非因果機制,混淆變項與選樣同樣可能扭曲它。

深入探討(研究所視角)

馬可夫鏈 MLE 的漸近性質可用鞅中心極限定理處理。注意分數函數 $\sum_t \big(\mathbf{1}\{X_t=i, X_{t+1}=j\} - p_{ij}\mathbf{1}\{X_t=i\}\big)$ 是相對於自然濾過的鞅差序列,因此即便資料相依,在不可約非週期條件下仍有 $\sqrt{n}(\hat p_{ij}-p_{ij}) \xrightarrow{d} N(0, \sigma_{ij}^2)$,其中 $\sigma_{ij}^2 = p_{ij}(1-p_{ij})/\pi_i$。$\pi_i$ 出現在分母揭示了關鍵:罕見狀態($\pi_i$ 小)被造訪次數少,估計變異必然大,這是「相依資料的有效樣本量」概念的具體展現。Fisher 資訊矩陣在此為區塊對角,各列獨立,呼應了逐列估計的合理性。

貝氏對應極為自然:對每列轉移機率向量取 Dirichlet 先驗 $\text{Dir}(\alpha_{i1},\dots)$,因其與多項式概似共軛,後驗為 $\text{Dir}(\alpha_{ij}+N_{ij})$,後驗期望 $(\alpha_{ij}+N_{ij})/(\sum_j \alpha_{ij}+N_i)$ 即帶 Laplace 平滑的估計,恰好處理 $N_i=0$ 時 MLE 未定義的稀疏問題。在語言模型的 $n$-gram 時代,這類平滑(Lidstone、Good–Turing)正是核心技術,而現代序列模型可視為以神經網路取代查表式轉移矩陣的高階推廣。

模型選擇上,「一階是否足夠」是可檢驗的:對「二階 vs 一階」做概似比檢定,統計量 $2(\ell_2-\ell_1)$ 在虛無下漸近 $\chi^2$,自由度為參數差;或用 AIC/BIC 在階數與隱藏狀態數間權衡。當狀態不可直接觀測時,即推廣為隱馬可夫模型(HMM),其 MLE 透過 Baum–Welch(EM 的特例)求解,前向–後向演算法計算後驗。連續時間版本則以生成元矩陣 $Q$ 描述,$P(t)=e^{Qt}$,是存活分析與排隊論的語言。

因果推論的連結需審慎:轉移矩陣是觀測性的條件分布,要賦予因果意義須額外假設(如無未測量混淆、干預下的不變性)。Pearl 的結構因果模型與動態處理機制(dynamic treatment regimes)中的馬可夫決策過程(MDP)正是橋樑——MDP 在轉移上疊加動作與獎勵,使「策略評估」成為良定義的因果問題,這也是強化學習與序貫決策的理論起點。最後務必牢記:再長的軌跡也只校準我們對隨機性的描述,平穩分布是頻率而非命運,遍歷收斂保證的是平均而非個別預測。

AI 共讀助教正在陪你讀:隨機過程與馬可夫鏈入門:從無記憶性到平穩分布與估計
嗨!我是這篇文章的共讀助教,只根據〈隨機過程與馬可夫鏈入門:從無記憶性到平穩分布與估計〉的內容回答。可以問我「解釋某段」「舉個例子」「出題考我」,或反白文中段落後點下方「解釋選取段落」。