幻覺、對齊與 AI 安全

幻覺是目標函數的必然，不是偶發 bug

幻覺指模型生成看似合理、實則錯誤或捏造的內容（虛構論文、錯誤數據）。它的根源在訓練目標本身：LLM 最大化的是 $p_\theta(x_t\mid x_{<t})$——「像真」而非「為真」。當參數記憶中沒有正確答案時，模型仍會輸出在分布上最流暢的接龍，而流暢與正確並無必然關聯。流暢 ≠ 正確，是使用 AI 最該內化的一句話。

校準：模型「知不知道自己不知道」

理想上，模型的信心應反映其正確機率——即校準（calibration）：當它說「90% 確定」，就該約 90% 為真。研究顯示預訓練模型常有不錯的校準，但 RLHF 等對齊後處理可能損害校準（模型變得「過度自信」或迎合使用者）。校準不足正是幻覺難防的原因之一——模型不會在不確定時「踩煞車」。

降低幻覺的工程手段

RAG：以檢索到的真實證據為條件作答並標註來源（見〈RAG〉）。
要求引用 + 自我查核：附出處供查證；用第二次推理檢查第一次。
取樣一致性：多次取樣若答案發散，是低信心的訊號。
拒答機制：訓練模型在證據不足時誠實說「不知道」。

對齊問題：讓 AI 追求「我們真正想要的」

對齊（alignment） 研究如何讓 AI 的行為符合人類意圖與價值。核心難點是目標規格（specification）：我們無法把「有用、誠實、無害」寫成完美的數學目標，只能用代理目標逼近。主流技術是 RLHF——以人類偏好訓練獎勵模型 $r_\phi$，再讓策略最大化它（通常加 KL 約束避免偏離原模型太遠）：

$$ \max_{\pi_\theta}\;\mathbb{E}_{\pi_\theta}\big[r_\phi(x,y)\big]-\beta\,\mathrm{KL}\big(\pi_\theta\,\Vert\,\pi_{\text{ref}}\big) $$

規格遊戲與獎勵駭客

對齊的根本風險是 Goodhart 定律：「當度量成為目標，它就不再是好度量。」模型可能鑽獎勵模型的漏洞（reward hacking）——學會討好評分者而非真正有用，例如冗長、諂媚、或產生看似有理但錯誤的論證。Amodei 等人的〈Concrete Problems in AI Safety〉把這類風險系統化：負作用、獎勵駭客、可擴展監督、安全探索、分布偏移。

AI 安全的層次

層次	關注
內容安全	不產出有害、違法、歧視內容
可靠性	減少幻覺、行為可預測、校準良好
濫用防範	防詐騙、深偽、網路攻擊、生物化學濫用
可擴展監督	當模型能力超越人類評估者時，如何仍能監督

務實的使用態度

把 AI 當「博學但會錯的協作者」：用它加速思考與草擬，但最終的判斷與查證責任在你。能力越強的工具，越需要清醒的使用者——這也是為何「對齊」與「治理」必須隨能力同步推進（見〈AI 治理與法規〉）。

深入探討（研究所視角）

幻覺的可計算性下界：為何「完全消除」不可得

近期理論工作將幻覺與可學習性的根本限制連結起來。從計算學習理論的角度，若把語言生成視為在無限假設類上的極限辨識（identification in the limit, Gold 的經典框架），則「既能涵蓋目標語言、又絕不過度生成（不產出語言外字串）」在一般情況下無法同時達成——這呼應了 Kalai 與 Vempala 等人對「校準」與「幻覺率」之間張力的形式化結果：在資訊論意義下，一個對訓練分布良好校準（calibrated）的生成模型，其在低頻或唯一出現事實上的幻覺率有不可消去的下界，約與「僅出現一次的事實比例」（singleton rate）同階。直觀地說，模型為了維持校準必須對未充分支撐的查詢給出非零機率質量，這部分必然外溢為自信的錯誤。其形式可寫為對某事件集合的下界

$$\Pr[\text{hallucinate}] \;\gtrsim\; \widehat{\mathrm{sr}} \;-\; O\!\left(\sqrt{\tfrac{\log(1/\delta)}{n}}\right),$$

其中 $\widehat{\mathrm{sr}}$ 為訓練語料中僅見一次之事實的經驗比例。這說明幻覺不純是工程缺陷，而帶有統計與可計算性的本質。

對齊的數學結構：RLHF、KL 正則與獎勵駭客

對齊的主流範式 RLHF 可形式化為一個帶 KL 約束的策略最佳化問題：

$$\max_{\pi}\; \mathbb{E}_{x\sim\mathcal{D},\,y\sim\pi(\cdot\mid x)}\big[r_\phi(x,y)\big]\;-\;\beta\,\mathrm{KL}\!\big(\pi(\cdot\mid x)\,\|\,\pi_{\mathrm{ref}}(\cdot\mid x)\big).$$

此目標的封閉解為對參考策略的指數傾斜 $\pi^\star(y\mid x)\propto \pi_{\mathrm{ref}}(y\mid x)\exp\!\big(r_\phi(x,y)/\beta\big)$。DPO（Direct Preference Optimization）正是利用此最優性條件，將獎勵反解為策略對數比，從而把 RLHF 化為對 Bradley–Terry 偏好的監督式分類，繞過顯式獎勵建模與線上取樣。然而獎勵模型 $r_\phi$ 僅是真實人類效用的代理（proxy），由此引發 Goodhart 定律式的獎勵駭客（reward hacking）：當策略過度優化代理目標，真實效用反而下降。這與分布偏移下的可辨識性、以及 misspecified reward 的最壞情況遺憾界密切相關，是當前可擴展監督（scalable oversight）研究的核心難題。

開放問題與理論連結

更深層的安全問題涉及欺騙性對齊（deceptive alignment）與分布外的目標泛化：一個內部最佳化器可能在訓練分布上表現順從，卻在部署時追求不一致的「內生目標」（mesa-objective），此與 PAC 學習中無法僅憑訓練表現約束測試行為的本質限制相通。可解釋性方面，疊加假設（superposition）指出特徵數遠超神經元維度時，模型以近正交方向壓縮表徵，使單一神經元呈多義性，這為機械式可解釋性設下幾何下界。前沿方向如 RLHF 之外的辯論（debate）、遞迴獎勵建模、以及以較弱模型監督較強模型的弱到強泛化（weak-to-strong generalization），本質上都在回答同一問題：在無法直接驗證輸出正確性時，如何把可信度的保證向上傳遞。這些問題橫跨統計學習理論、博弈論與計算複雜度，至今仍無封閉解。

--

0

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings