基因表現調控:從 operon 邏輯閘到表觀遺傳地景
以佔據機率、結合自由能與隨機轉錄爆發,重新理解原核與真核的調控本質
從「開關」到「調光器」:基因表現調控的核心問題
每一個體細胞都帶有幾乎完全相同的基因組,可是肝細胞、神經元與淋巴球的形態與功能卻天差地遠。差別不在於「有沒有這個基因」,而在於「這個基因在什麼時候、以多高的速率被轉錄與轉譯」。換言之,生命真正操弄的是基因表現的速率,而非基因的有無。本文把調控分成兩個層級:原核生物以 operon 為核心的邏輯閘式轉錄調控,以及真核生物在不改動 DNA 序列的前提下,透過染色質狀態改變表現的表觀遺傳調控。兩者看似分屬不同界,卻共享同一個物理本質——結合親和力與佔據機率(occupancy)決定轉錄輸出。

Operon 的熱力學:佔據機率決定轉錄速率
Jacob 與 Monod 提出的 lac operon 是分子生物學的奠基模型。在大腸桿菌中,lacZ、lacY、lacA 三個基因共用一個啟動子與一個操作子(operator),由 LacI 抑制蛋白佔據 operator 來阻斷 RNA 聚合酶的進入。這是一個負調控(negative control):沒有誘導物時抑制,加入乳糖代謝物 allolactose 後 LacI 構型改變、離開 operator,轉錄解禁。
調控的本質可用統計力學的佔據機率描述。設抑制蛋白與 operator 的解離常數為 $K_d$,自由抑制蛋白濃度為 $[R]$,則 operator 被佔據(即基因被關閉)的機率為
$$p_{\text{bound}} = \frac{[R]/K_d}{1 + [R]/K_d}$$
而基因「開啟」的機率即 $1 - p_{\text{bound}}$。轉錄輸出速率近似正比於開啟機率。$K_d = [R][O]/[RO]$ 又與結合自由能直接相關:
$$\Delta G_{\text{bind}} = RT \ln K_d$$
operator 序列每偏離共識序列一個鹼基,$\Delta G_{\text{bind}}$ 通常升高約 $1\text{–}2\ k_BT$,使 $K_d$ 上升、抑制變弱。這解釋了為何操作子的序列就是調控強度的旋鈕:演化只要微調幾個鹼基,就能在不更換調控蛋白的情況下,連續地調整基因的表現基線。
lac operon 同時受正調控疊加:當葡萄糖匱乏時 cAMP 升高,cAMP–CRP 複合體結合啟動子上游、彎折 DNA 並招募 RNA 聚合酶,使轉錄效率倍增。於是 lac operon 實質上是一個 AND 邏輯閘——「乳糖存在」AND「葡萄糖缺乏」時才大量表現。相對地,trp operon 採用衰減(attenuation)機制:當色胺酸充足時,前導序列的核糖體位置改變 mRNA 二級結構,提前形成終止子使轉錄夭折。兩種設計凸顯原核調控的精巧:用最少的蛋白與 DNA 元件,組合出條件邏輯。
定量小範例:抑制蛋白濃度與表現量的關係
假設 LacI 對 operator 的 $K_d = 10^{-9}\ \text{M}$(即 1 nM),細胞內自由抑制蛋白濃度 $[R] = 10^{-8}\ \text{M}$(10 nM)。
代入佔據機率:
$$p_{\text{bound}} = \frac{10^{-8}/10^{-9}}{1 + 10^{-8}/10^{-9}} = \frac{10}{1+10} = \frac{10}{11} \approx 0.909$$
operator 約有 90.9% 的時間被佔據,基因開啟機率僅 $1 - 0.909 = 0.091$,即基礎漏表現(basal leakage)約 9%。
現在加入誘導物,使有效自由抑制蛋白降到 $[R] = 10^{-10}\ \text{M}$(0.1 nM):
$$p_{\text{bound}} = \frac{10^{-10}/10^{-9}}{1 + 10^{-10}/10^{-9}} = \frac{0.1}{1.1} \approx 0.091$$
此時開啟機率躍升至約 0.909。誘導前後的表現比約為 $0.909 / 0.091 \approx 10$ 倍。這正說明:把自由抑制蛋白濃度從 10 nM 壓到 0.1 nM(100 倍變化),就能換得約 10 倍的轉錄誘導。實際 lac 系統因抑制蛋白可同時結合多個 operator 形成 DNA 環(looping),協同性更強,誘導倍率可達數百至上千倍。
表觀遺傳:在不改序列下改寫染色質的可讀性
真核生物的調控多了一個維度:DNA 纏繞在組蛋白八聚體上形成核小體,DNA 的「可及性」本身就是調控變數。表觀遺傳指的正是這些可遺傳、但不改變 DNA 序列的表現狀態。主要機制有三類,且彼此交織成回饋網路。
DNA 甲基化:在哺乳類,胞嘧啶 C 在 CpG 雙核苷酸位點被 DNMT 加上甲基成 5-methylcytosine。啟動子區 CpG island 的高度甲基化通常與基因沉默相關,因為它會招募 methyl-CpG 結合蛋白並排斥某些轉錄因子。複製時 DNMT1 以半甲基化雙股為模板,把甲基「複印」到新合成股上——這就是表觀標記得以跨細胞分裂遺傳的分子基礎。
組蛋白修飾:組蛋白尾端可被乙醯化、甲基化、磷酸化等。乙醯化(如 H3K27ac)中和賴胺酸正電、鬆開 DNA–組蛋白靜電吸引,與活躍轉錄相關;某些甲基化(如 H3K9me3、H3K27me3)則標記異染色質與沉默。這套「組蛋白密碼」由 writer(如 HAT)、eraser(如 HDAC)與 reader(含 bromodomain 的蛋白)動態維持。
染色質重塑與非編碼 RNA:ATP 依賴的重塑複合體(如 SWI/SNF)滑動或逐出核小體;長鏈非編碼 RNA(如 Xist)則可在順式招募沉默機器,達成 X 染色體去活化這類整條染色體的關閉。
值得強調的是:原核 operon 與真核表觀調控在數學上是相通的。前者調的是抑制蛋白的佔據機率,後者調的是核小體與修飾的狀態機率分布——兩者都把「連續的物理親和力」轉譯為「離散的基因 on/off 表現」。
深入探討(研究所視角)
進入研究所層次,調控不再是「單一啟動子 × 單一因子」的線性故事,而是多尺度的隨機系統與結構問題,以下四條前沿值得深究。
一、結構生物學揭露的分子細節。 冷凍電顯(cryo-EM)近年解析了核小體與重塑機器、PRC2(Polycomb repressive complex 2,負責 H3K27me3)等複合體的結構。PRC2 具有讀寫耦合(read-write coupling):其 EED 次單元辨識既有的 H3K27me3,再變構活化催化次單元 EZH2 在鄰近核小體上寫入更多 H3K27me3。這種「正回饋傳播」正是表觀標記能沿染色質擴散並自我維持的結構基礎,也對應數學上的雙穩態(bistability)——系統可被推入「全甲基化」或「全去甲基化」兩個吸引子之一,並在分裂後維持。Hox 基因簇的開關記憶即建立在此。
二、轉錄爆發與單細胞異質性。 單分子 RNA 顯影與 scRNA-seq 顯示,基因表現並非穩定涓流,而是轉錄爆發(transcriptional bursting):啟動子在 ON/OFF 狀態間隨機切換,ON 時連續發射多條 mRNA。常用的雙態模型以 $k_{\text{on}}$、$k_{\text{off}}$、轉錄速率 $k_m$ 描述,穩態 mRNA 分布服從負二項分布,其 Fano factor(變異數/均值)通常大於 1,正是 Poisson 純隨機過程無法解釋的「超散布」。此框架把表觀染色質狀態自然詮釋為 $k_{\text{on}}/k_{\text{off}}$ 的調節,連結了單細胞觀測與分子機制。
三、體學與系統生物學的整合。 ChIP-seq、ATAC-seq、bisulfite-seq、Hi-C 等技術把調控狀態繪成全基因組地圖:ATAC-seq 標定開放染色質、Hi-C 揭露 TAD(拓樸關聯結構域)與增強子–啟動子的三維接觸。系統生物學則以基因調控網路(布林網路、常微分方程、或隨機主方程)描述細胞命運決定,把 Waddington 的「表觀遺傳地景」形式化為高維動態系統的吸引子盆地,發育即在地景上的軌跡。
四、新興技術與機制再認識。 CRISPR 衍生的 CRISPRi/CRISPRa(dCas9 融合 KRAB 或活化域)讓研究者能在內源位點精準寫入或抹除表觀沉默,驗證單一調控元件的因果效應;可遺傳的表觀編輯更暗示治療潛力。同時,相分離(liquid–liquid phase separation)被提出為轉錄與異染色質組裝的組織原理——HP1 與某些轉錄共活化因子可形成生物分子凝聚體,把調控因子在三維空間中濃縮,這為傳統「佔據機率」模型補上了局部濃度被相分離放大的維度。從 operon 的單一 operator 到凝聚體中的多價交互作用,調控的研究正從平衡熱力學走向非平衡、隨機與多尺度的整合視野。