Home
探索 Uedu
學生控制台
註冊會員/登入
研究知情同意中心
教師控制台
課程設定
支援與訊息
Uptime 數據

UeduGPTs

--

Jupyters

2

UG26 CISOSE26
臺北 AQI 51 · 臺中 AQI 32 · 臺南 AQI 29 · 高雄 AQI 27

AI 回覆桌面通知

AI 助教回覆完成時顯示桌面通知

聊天訊息通知

同學在討論區發送訊息時通知

聲音通知

每當有新通知時播放提示音

生成式 AI
生成式 AI

大型語言模型(LLM)是什麼?

拆解 ChatGPT、Claude、Gemini 背後共通的運作原理。

大型語言模型(LLM)是什麼? 概念插圖
概念示意插圖(AI 生成,僅作輔助理解)
研究  ·  約 15 分鐘  ·  生成式AILLM規模律研究

目標函數:一個極簡的自監督損失

大型語言模型(LLM) 是基於 Transformer、用海量文本以自迴歸方式訓練的生成模型。整個訓練目標是最小化「下一個 token」的負對數概似:

$$ \mathcal{L}(\theta)=-\sum_{t=1}^{T}\log p_\theta\big(x_t\mid x_{<t}\big) $$

它與困惑度(perplexity) $\mathrm{PPL}=\exp(\mathcal{L}/T)$ 直接相關——困惑度可解讀為模型在每步「平均猶豫於幾個選項」。整個對話、翻譯、推理、寫程式的能力,都湧現自把這一個簡單損失壓到極低。

三段式訓練管線

  1. 預訓練(Pre-training):在數兆 token 上做自監督的下一字預測,學到語言與世界的統計規律。最貴,需數千張 GPU 數週至數月。
  2. 監督微調(SFT):用高品質的「指令—回應」示範,把基礎模型導向「聽從指令」。
  3. 偏好對齊(RLHF/DPO):訓練獎勵模型擬合人類偏好,再以強化學習(或直接偏好最佳化)讓輸出更有用、誠實、無害。InstructGPT 證明:相對小但對齊良好的模型,可勝過更大但未對齊者。

這條管線把「會接龍的模型」變成「會聽話、較安全的助手」。

規模律與 Chinchilla:算力該怎麼花

測試損失隨參數量 $N$、資料量 $D$ 呈冪次下降。Hoffmann 等人(Chinchilla)進一步指出在固定算力 $C\approx 6ND$ 下存在計算最優配置:$N$ 與 $D$ 應等比例放大。早期模型多半「參數過大、資料不足」,這個結論重塑了後續的訓練策略——資料與參數要平衡擴張。

推論時的解碼:可控的隨機性

生成時逐步從 $p_\theta(x_t\mid x_{<t})$ 取樣。溫度 $\tau$ 重塑分布

$$ p_i\propto \exp(z_i/\tau) $$

$\tau\to0$ 趨近貪婪(連貫但保守),$\tau$ 大則更隨機多樣;top-$k$/核取樣(top-$p$) 則截斷尾端低機率 token 以平衡品質與多樣性。理解這些參數,才能在「創意」與「穩定」間調校產出。

脈絡內學習與關鍵名詞

GPT-3 揭示了脈絡內學習(in-context learning):不更新權重,只在提示中給幾個示範,模型就能即時適應新任務——這是提示工程的理論基礎(見〈提示工程入門〉)。其餘必懂名詞:token(計費與長度單位)、參數(數十億至數千億)、上下文視窗(一次可讀入的 token 上限,受自注意力 $\mathcal{O}(n^2)$ 與 KV cache 記憶體約束)。

能力與限制都源於同一個目標

LLM 強在語言流暢、知識廣博、跨任務泛化;弱在會一本正經地虛構(幻覺)、知識有截止日期、不擅精確計算、對提示敏感。這些並非 bug,而是「以最大概似擬合資料分布」這個目標的直接推論——模型優化的是「像真」而非「為真」。把握這點,就能解釋它為何既強大又會出錯,也能寫出更好的提示。延伸見〈提示工程入門〉〈檢索增強生成(RAG)〉〈幻覺、對齊與 AI 安全〉。

深入探討(研究所視角)

自注意力的核心限制與線性化嘗試

標準 Transformer 的自注意力對序列長度 $n$ 具有 $O(n^2 d)$ 的時間與記憶體複雜度,源自於相似度矩陣 $A = \mathrm{softmax}(QK^\top / \sqrt{d_k})$ 的明確物化。一條重要的研究脈絡是把 softmax 核 $\kappa(q, k) = \exp(q^\top k / \sqrt{d_k})$ 改寫為特徵映射的內積 $\phi(q)^\top \phi(k)$,使得注意力可重排為

$$\mathrm{Attn}(Q, K, V) = \phi(Q)\big(\phi(K)^\top V\big),$$

先計算 $\phi(K)^\top V \in \mathbb{R}^{d \times d}$ 即可把複雜度降到 $O(n d^2)$(Linear Attention、Performer 的 FAVOR+ 隨機特徵)。此類線性化在自迴歸設定下與遞迴狀態更新同構,這正是近年狀態空間模型(S4、Mamba)與線性 RNN 復興的理論橋樑:它們本質上是把注意力的「全域檢索」換成一個可線性遞推的隱藏狀態,犧牲部分長程精確檢索(associative recall)以換取線性推理成本。值得注意的是,FlashAttention 屬於另一條路線——它不改變數學語意,而是透過 IO-aware 的分塊與線上 softmax 重算,避免把 $A$ 寫回 HBM,從而在不損失精度下逼近硬體頻寬上限。

表達力、湧現與 Scaling Law

從可計算性角度,固定深度的 Transformer 其單次前向屬於 $\mathsf{TC}^0$ 等較弱的電路類別,無法在常數層內完成需要不可平行化串行運算的任務;而 Chain-of-Thought 透過把中間狀態外化到 token 序列上,等效於延長了計算的「串行深度」,理論上可提升至模擬多項式步數的圖靈機,這為「思考鏈為何有效」提供了計算複雜度層面的解釋。經驗層面,Kaplan 與後續 Chinchilla 的工作給出損失對參數量 $N$ 與資料量 $D$ 的冪律:

$$L(N, D) = E + \frac{A}{N^{\alpha}} + \frac{B}{D^{\beta}},$$

並推導出在固定計算預算 $C \approx 6ND$ 下的最適配置,修正了早期「參數優先」的偏誤,指出多數大模型其實訓練資料不足(under-trained)。所謂「湧現能力」在對數刻度下是否為真實相變,抑或僅是離散度量造成的視覺假象,目前仍是開放爭論。

對齊、機制可解釋性與開放問題

預訓練最小化的是 next-token 交叉熵,與「有用且無害」的人類偏好並不等價,故需 RLHF/DPO 等對齊階段。DPO 的關鍵洞見是將 RLHF 的 KL 正則化獎勵最大化問題重參數化,使最適策略與獎勵之間存在閉式對應 $r(x, y) = \beta \log \frac{\pi^*(y\mid x)}{\pi_{\mathrm{ref}}(y\mid x)} + \beta \log Z(x)$,從而把獎勵建模與策略優化合併為單一監督式損失。理論未解的問題包括:幻覺是否為以最大似然訓練的生成模型之內在性質、$\beta$-KL 約束下的對齊稅(alignment tax)下界,以及機制可解釋性中以稀疏自編碼器抽取的「特徵」是否真能對應人類可理解的單義概念。這些議題與 superposition、grokking 等現象共同構成當前理解 LLM 內部表徵的前沿。

接著問 AI 助教

點一下複製提問,到 ClassroomGPT、優學伴(AIDA)或你的 UeduGPTs 頻道貼上,AI 會引用本專區內容回答。

AI 共讀助教正在陪你讀:大型語言模型(LLM)是什麼?
嗨!我是這篇文章的共讀助教,只根據〈大型語言模型(LLM)是什麼?〉的內容回答。可以問我「解釋某段」「舉個例子」「出題考我」,或反白文中段落後點下方「解釋選取段落」。