目標函數:一個極簡的自監督損失
大型語言模型(LLM) 是基於 Transformer、用海量文本以自迴歸方式訓練的生成模型。整個訓練目標是最小化「下一個 token」的負對數概似:
$$ \mathcal{L}(\theta)=-\sum_{t=1}^{T}\log p_\theta\big(x_t\mid x_{<t}\big) $$
它與困惑度(perplexity) $\mathrm{PPL}=\exp(\mathcal{L}/T)$ 直接相關——困惑度可解讀為模型在每步「平均猶豫於幾個選項」。整個對話、翻譯、推理、寫程式的能力,都湧現自把這一個簡單損失壓到極低。
三段式訓練管線
- 預訓練(Pre-training):在數兆 token 上做自監督的下一字預測,學到語言與世界的統計規律。最貴,需數千張 GPU 數週至數月。
- 監督微調(SFT):用高品質的「指令—回應」示範,把基礎模型導向「聽從指令」。
- 偏好對齊(RLHF/DPO):訓練獎勵模型擬合人類偏好,再以強化學習(或直接偏好最佳化)讓輸出更有用、誠實、無害。InstructGPT 證明:相對小但對齊良好的模型,可勝過更大但未對齊者。
這條管線把「會接龍的模型」變成「會聽話、較安全的助手」。
規模律與 Chinchilla:算力該怎麼花
測試損失隨參數量 $N$、資料量 $D$ 呈冪次下降。Hoffmann 等人(Chinchilla)進一步指出在固定算力 $C\approx 6ND$ 下存在計算最優配置:$N$ 與 $D$ 應等比例放大。早期模型多半「參數過大、資料不足」,這個結論重塑了後續的訓練策略——資料與參數要平衡擴張。
推論時的解碼:可控的隨機性
生成時逐步從 $p_\theta(x_t\mid x_{<t})$ 取樣。溫度 $\tau$ 重塑分布
$$ p_i\propto \exp(z_i/\tau) $$
$\tau\to0$ 趨近貪婪(連貫但保守),$\tau$ 大則更隨機多樣;top-$k$/核取樣(top-$p$) 則截斷尾端低機率 token 以平衡品質與多樣性。理解這些參數,才能在「創意」與「穩定」間調校產出。
脈絡內學習與關鍵名詞
GPT-3 揭示了脈絡內學習(in-context learning):不更新權重,只在提示中給幾個示範,模型就能即時適應新任務——這是提示工程的理論基礎(見〈提示工程入門〉)。其餘必懂名詞:token(計費與長度單位)、參數(數十億至數千億)、上下文視窗(一次可讀入的 token 上限,受自注意力 $\mathcal{O}(n^2)$ 與 KV cache 記憶體約束)。
能力與限制都源於同一個目標
LLM 強在語言流暢、知識廣博、跨任務泛化;弱在會一本正經地虛構(幻覺)、知識有截止日期、不擅精確計算、對提示敏感。這些並非 bug,而是「以最大概似擬合資料分布」這個目標的直接推論——模型優化的是「像真」而非「為真」。把握這點,就能解釋它為何既強大又會出錯,也能寫出更好的提示。延伸見〈提示工程入門〉〈檢索增強生成(RAG)〉〈幻覺、對齊與 AI 安全〉。
深入探討(研究所視角)
自注意力的核心限制與線性化嘗試
標準 Transformer 的自注意力對序列長度 $n$ 具有 $O(n^2 d)$ 的時間與記憶體複雜度,源自於相似度矩陣 $A = \mathrm{softmax}(QK^\top / \sqrt{d_k})$ 的明確物化。一條重要的研究脈絡是把 softmax 核 $\kappa(q, k) = \exp(q^\top k / \sqrt{d_k})$ 改寫為特徵映射的內積 $\phi(q)^\top \phi(k)$,使得注意力可重排為
$$\mathrm{Attn}(Q, K, V) = \phi(Q)\big(\phi(K)^\top V\big),$$
先計算 $\phi(K)^\top V \in \mathbb{R}^{d \times d}$ 即可把複雜度降到 $O(n d^2)$(Linear Attention、Performer 的 FAVOR+ 隨機特徵)。此類線性化在自迴歸設定下與遞迴狀態更新同構,這正是近年狀態空間模型(S4、Mamba)與線性 RNN 復興的理論橋樑:它們本質上是把注意力的「全域檢索」換成一個可線性遞推的隱藏狀態,犧牲部分長程精確檢索(associative recall)以換取線性推理成本。值得注意的是,FlashAttention 屬於另一條路線——它不改變數學語意,而是透過 IO-aware 的分塊與線上 softmax 重算,避免把 $A$ 寫回 HBM,從而在不損失精度下逼近硬體頻寬上限。
表達力、湧現與 Scaling Law
從可計算性角度,固定深度的 Transformer 其單次前向屬於 $\mathsf{TC}^0$ 等較弱的電路類別,無法在常數層內完成需要不可平行化串行運算的任務;而 Chain-of-Thought 透過把中間狀態外化到 token 序列上,等效於延長了計算的「串行深度」,理論上可提升至模擬多項式步數的圖靈機,這為「思考鏈為何有效」提供了計算複雜度層面的解釋。經驗層面,Kaplan 與後續 Chinchilla 的工作給出損失對參數量 $N$ 與資料量 $D$ 的冪律:
$$L(N, D) = E + \frac{A}{N^{\alpha}} + \frac{B}{D^{\beta}},$$
並推導出在固定計算預算 $C \approx 6ND$ 下的最適配置,修正了早期「參數優先」的偏誤,指出多數大模型其實訓練資料不足(under-trained)。所謂「湧現能力」在對數刻度下是否為真實相變,抑或僅是離散度量造成的視覺假象,目前仍是開放爭論。
對齊、機制可解釋性與開放問題
預訓練最小化的是 next-token 交叉熵,與「有用且無害」的人類偏好並不等價,故需 RLHF/DPO 等對齊階段。DPO 的關鍵洞見是將 RLHF 的 KL 正則化獎勵最大化問題重參數化,使最適策略與獎勵之間存在閉式對應 $r(x, y) = \beta \log \frac{\pi^*(y\mid x)}{\pi_{\mathrm{ref}}(y\mid x)} + \beta \log Z(x)$,從而把獎勵建模與策略優化合併為單一監督式損失。理論未解的問題包括:幻覺是否為以最大似然訓練的生成模型之內在性質、$\beta$-KL 約束下的對齊稅(alignment tax)下界,以及機制可解釋性中以稀疏自編碼器抽取的「特徵」是否真能對應人類可理解的單義概念。這些議題與 superposition、grokking 等現象共同構成當前理解 LLM 內部表徵的前沿。