大型語言模型（LLM）是什麼？

目標函數：一個極簡的自監督損失

大型語言模型（LLM） 是基於 Transformer、用海量文本以自迴歸方式訓練的生成模型。整個訓練目標是最小化「下一個 token」的負對數概似：

$$ \mathcal{L}(\theta)=-\sum_{t=1}^{T}\log p_\theta\big(x_t\mid x_{<t}\big) $$

它與困惑度（perplexity） $\mathrm{PPL}=\exp(\mathcal{L}/T)$ 直接相關——困惑度可解讀為模型在每步「平均猶豫於幾個選項」。整個對話、翻譯、推理、寫程式的能力，都湧現自把這一個簡單損失壓到極低。

三段式訓練管線

預訓練（Pre-training）：在數兆 token 上做自監督的下一字預測，學到語言與世界的統計規律。最貴，需數千張 GPU 數週至數月。
監督微調（SFT）：用高品質的「指令—回應」示範，把基礎模型導向「聽從指令」。
偏好對齊（RLHF／DPO）：訓練獎勵模型擬合人類偏好，再以強化學習（或直接偏好最佳化）讓輸出更有用、誠實、無害。InstructGPT 證明：相對小但對齊良好的模型，可勝過更大但未對齊者。

這條管線把「會接龍的模型」變成「會聽話、較安全的助手」。

規模律與 Chinchilla：算力該怎麼花

測試損失隨參數量 $N$、資料量 $D$ 呈冪次下降。Hoffmann 等人（Chinchilla）進一步指出在固定算力 $C\approx 6ND$ 下存在計算最優配置：$N$ 與 $D$ 應等比例放大。早期模型多半「參數過大、資料不足」，這個結論重塑了後續的訓練策略——資料與參數要平衡擴張。

推論時的解碼：可控的隨機性

生成時逐步從 $p_\theta(x_t\mid x_{<t})$ 取樣。溫度 $\tau$ 重塑分布

$$ p_i\propto \exp(z_i/\tau) $$

$\tau\to0$ 趨近貪婪（連貫但保守），$\tau$ 大則更隨機多樣；top-$k$／核取樣（top-$p$） 則截斷尾端低機率 token 以平衡品質與多樣性。理解這些參數，才能在「創意」與「穩定」間調校產出。

脈絡內學習與關鍵名詞

GPT-3 揭示了脈絡內學習（in-context learning）：不更新權重，只在提示中給幾個示範，模型就能即時適應新任務——這是提示工程的理論基礎（見〈提示工程入門〉）。其餘必懂名詞：token（計費與長度單位）、參數（數十億至數千億）、上下文視窗（一次可讀入的 token 上限，受自注意力 $\mathcal{O}(n^2)$ 與 KV cache 記憶體約束）。

能力與限制都源於同一個目標

LLM 強在語言流暢、知識廣博、跨任務泛化；弱在會一本正經地虛構（幻覺）、知識有截止日期、不擅精確計算、對提示敏感。這些並非 bug，而是「以最大概似擬合資料分布」這個目標的直接推論——模型優化的是「像真」而非「為真」。把握這點，就能解釋它為何既強大又會出錯，也能寫出更好的提示。延伸見〈提示工程入門〉〈檢索增強生成（RAG）〉〈幻覺、對齊與 AI 安全〉。

深入探討（研究所視角）

自注意力的核心限制與線性化嘗試

標準 Transformer 的自注意力對序列長度 $n$ 具有 $O(n^2 d)$ 的時間與記憶體複雜度，源自於相似度矩陣 $A = \mathrm{softmax}(QK^\top / \sqrt{d_k})$ 的明確物化。一條重要的研究脈絡是把 softmax 核 $\kappa(q, k) = \exp(q^\top k / \sqrt{d_k})$ 改寫為特徵映射的內積 $\phi(q)^\top \phi(k)$，使得注意力可重排為

$$\mathrm{Attn}(Q, K, V) = \phi(Q)\big(\phi(K)^\top V\big),$$

先計算 $\phi(K)^\top V \in \mathbb{R}^{d \times d}$ 即可把複雜度降到 $O(n d^2)$（Linear Attention、Performer 的 FAVOR+ 隨機特徵）。此類線性化在自迴歸設定下與遞迴狀態更新同構，這正是近年狀態空間模型（S4、Mamba）與線性 RNN 復興的理論橋樑：它們本質上是把注意力的「全域檢索」換成一個可線性遞推的隱藏狀態，犧牲部分長程精確檢索（associative recall）以換取線性推理成本。值得注意的是，FlashAttention 屬於另一條路線——它不改變數學語意，而是透過 IO-aware 的分塊與線上 softmax 重算，避免把 $A$ 寫回 HBM，從而在不損失精度下逼近硬體頻寬上限。

表達力、湧現與 Scaling Law

從可計算性角度，固定深度的 Transformer 其單次前向屬於 $\mathsf{TC}^0$ 等較弱的電路類別，無法在常數層內完成需要不可平行化串行運算的任務；而 Chain-of-Thought 透過把中間狀態外化到 token 序列上，等效於延長了計算的「串行深度」，理論上可提升至模擬多項式步數的圖靈機，這為「思考鏈為何有效」提供了計算複雜度層面的解釋。經驗層面，Kaplan 與後續 Chinchilla 的工作給出損失對參數量 $N$ 與資料量 $D$ 的冪律：

$$L(N, D) = E + \frac{A}{N^{\alpha}} + \frac{B}{D^{\beta}},$$

並推導出在固定計算預算 $C \approx 6ND$ 下的最適配置，修正了早期「參數優先」的偏誤，指出多數大模型其實訓練資料不足（under-trained）。所謂「湧現能力」在對數刻度下是否為真實相變，抑或僅是離散度量造成的視覺假象，目前仍是開放爭論。

對齊、機制可解釋性與開放問題

預訓練最小化的是 next-token 交叉熵，與「有用且無害」的人類偏好並不等價，故需 RLHF／DPO 等對齊階段。DPO 的關鍵洞見是將 RLHF 的 KL 正則化獎勵最大化問題重參數化，使最適策略與獎勵之間存在閉式對應 $r(x, y) = \beta \log \frac{\pi^*(y\mid x)}{\pi_{\mathrm{ref}}(y\mid x)} + \beta \log Z(x)$，從而把獎勵建模與策略優化合併為單一監督式損失。理論未解的問題包括：幻覺是否為以最大似然訓練的生成模型之內在性質、$\beta$-KL 約束下的對齊稅（alignment tax）下界，以及機制可解釋性中以稀疏自編碼器抽取的「特徵」是否真能對應人類可理解的單義概念。這些議題與 superposition、grokking 等現象共同構成當前理解 LLM 內部表徵的前沿。

--

0

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings