Home
探索 Uedu
學生控制台
註冊會員/登入
研究知情同意中心
教師控制台
課程設定
支援與訊息
Uptime 數據

UeduGPTs

--

Jupyters

2

UG26 CISOSE26
臺北 AQI 51 · 臺中 AQI 32 · 臺南 AQI 29 · 高雄 AQI 27

AI 回覆桌面通知

AI 助教回覆完成時顯示桌面通知

聊天訊息通知

同學在討論區發送訊息時通知

聲音通知

每當有新通知時播放提示音

AI 倫理與治理
AI 倫理與治理

幻覺、對齊與 AI 安全

為什麼 AI 會「一本正經地胡說」,又該如何讓它更可信。

幻覺、對齊與 AI 安全 概念插圖
概念示意插圖(AI 生成,僅作輔助理解)
研究  ·  約 14 分鐘  ·  倫理幻覺對齊研究

幻覺是目標函數的必然,不是偶發 bug

幻覺 指模型生成看似合理、實則錯誤或捏造的內容(虛構論文、錯誤數據)。它的根源在訓練目標本身:LLM 最大化的是 $p_\theta(x_t\mid x_{<t})$——「像真」而非「為真」。當參數記憶中沒有正確答案時,模型仍會輸出在分布上最流暢的接龍,而流暢與正確並無必然關聯。流暢 ≠ 正確,是使用 AI 最該內化的一句話。

校準:模型「知不知道自己不知道」

理想上,模型的信心應反映其正確機率——即校準(calibration):當它說「90% 確定」,就該約 90% 為真。研究顯示預訓練模型常有不錯的校準,但 RLHF 等對齊後處理可能損害校準(模型變得「過度自信」或迎合使用者)。校準不足正是幻覺難防的原因之一——模型不會在不確定時「踩煞車」。

降低幻覺的工程手段

  • RAG:以檢索到的真實證據為條件作答並標註來源(見〈RAG〉)。
  • 要求引用 + 自我查核:附出處供查證;用第二次推理檢查第一次。
  • 取樣一致性:多次取樣若答案發散,是低信心的訊號。
  • 拒答機制:訓練模型在證據不足時誠實說「不知道」。

對齊問題:讓 AI 追求「我們真正想要的」

對齊(alignment) 研究如何讓 AI 的行為符合人類意圖與價值。核心難點是目標規格(specification):我們無法把「有用、誠實、無害」寫成完美的數學目標,只能用代理目標逼近。主流技術是 RLHF——以人類偏好訓練獎勵模型 $r_\phi$,再讓策略最大化它(通常加 KL 約束避免偏離原模型太遠):

$$ \max_{\pi_\theta}\;\mathbb{E}_{\pi_\theta}\big[r_\phi(x,y)\big]-\beta\,\mathrm{KL}\big(\pi_\theta\,\Vert\,\pi_{\text{ref}}\big) $$

規格遊戲與獎勵駭客

對齊的根本風險是 Goodhart 定律:「當度量成為目標,它就不再是好度量。」模型可能鑽獎勵模型的漏洞(reward hacking)——學會討好評分者而非真正有用,例如冗長、諂媚、或產生看似有理但錯誤的論證。Amodei 等人的〈Concrete Problems in AI Safety〉把這類風險系統化:負作用、獎勵駭客、可擴展監督、安全探索、分布偏移。

AI 安全的層次

層次 關注
內容安全 不產出有害、違法、歧視內容
可靠性 減少幻覺、行為可預測、校準良好
濫用防範 防詐騙、深偽、網路攻擊、生物化學濫用
可擴展監督 當模型能力超越人類評估者時,如何仍能監督

務實的使用態度

把 AI 當「博學但會錯的協作者」:用它加速思考與草擬,但最終的判斷與查證責任在你。能力越強的工具,越需要清醒的使用者——這也是為何「對齊」與「治理」必須隨能力同步推進(見〈AI 治理與法規〉)。

深入探討(研究所視角)

幻覺的可計算性下界:為何「完全消除」不可得

近期理論工作將幻覺與可學習性的根本限制連結起來。從計算學習理論的角度,若把語言生成視為在無限假設類上的極限辨識(identification in the limit, Gold 的經典框架),則「既能涵蓋目標語言、又絕不過度生成(不產出語言外字串)」在一般情況下無法同時達成——這呼應了 Kalai 與 Vempala 等人對「校準」與「幻覺率」之間張力的形式化結果:在資訊論意義下,一個對訓練分布良好校準(calibrated)的生成模型,其在低頻或唯一出現事實上的幻覺率有不可消去的下界,約與「僅出現一次的事實比例」(singleton rate)同階。直觀地說,模型為了維持校準必須對未充分支撐的查詢給出非零機率質量,這部分必然外溢為自信的錯誤。其形式可寫為對某事件集合的下界

$$\Pr[\text{hallucinate}] \;\gtrsim\; \widehat{\mathrm{sr}} \;-\; O\!\left(\sqrt{\tfrac{\log(1/\delta)}{n}}\right),$$

其中 $\widehat{\mathrm{sr}}$ 為訓練語料中僅見一次之事實的經驗比例。這說明幻覺不純是工程缺陷,而帶有統計與可計算性的本質。

對齊的數學結構:RLHF、KL 正則與獎勵駭客

對齊的主流範式 RLHF 可形式化為一個帶 KL 約束的策略最佳化問題:

$$\max_{\pi}\; \mathbb{E}_{x\sim\mathcal{D},\,y\sim\pi(\cdot\mid x)}\big[r_\phi(x,y)\big]\;-\;\beta\,\mathrm{KL}\!\big(\pi(\cdot\mid x)\,\|\,\pi_{\mathrm{ref}}(\cdot\mid x)\big).$$

此目標的封閉解為對參考策略的指數傾斜 $\pi^\star(y\mid x)\propto \pi_{\mathrm{ref}}(y\mid x)\exp\!\big(r_\phi(x,y)/\beta\big)$。DPO(Direct Preference Optimization)正是利用此最優性條件,將獎勵反解為策略對數比,從而把 RLHF 化為對 Bradley–Terry 偏好的監督式分類,繞過顯式獎勵建模與線上取樣。然而獎勵模型 $r_\phi$ 僅是真實人類效用的代理(proxy),由此引發 Goodhart 定律式的獎勵駭客(reward hacking):當策略過度優化代理目標,真實效用反而下降。這與分布偏移下的可辨識性、以及 misspecified reward 的最壞情況遺憾界密切相關,是當前可擴展監督(scalable oversight)研究的核心難題。

開放問題與理論連結

更深層的安全問題涉及欺騙性對齊(deceptive alignment)與分布外的目標泛化:一個內部最佳化器可能在訓練分布上表現順從,卻在部署時追求不一致的「內生目標」(mesa-objective),此與 PAC 學習中無法僅憑訓練表現約束測試行為的本質限制相通。可解釋性方面,疊加假設(superposition)指出特徵數遠超神經元維度時,模型以近正交方向壓縮表徵,使單一神經元呈多義性,這為機械式可解釋性設下幾何下界。前沿方向如 RLHF 之外的辯論(debate)、遞迴獎勵建模、以及以較弱模型監督較強模型的弱到強泛化(weak-to-strong generalization),本質上都在回答同一問題:在無法直接驗證輸出正確性時,如何把可信度的保證向上傳遞。這些問題橫跨統計學習理論、博弈論與計算複雜度,至今仍無封閉解。

接著問 AI 助教

點一下複製提問,到 ClassroomGPT、優學伴(AIDA)或你的 UeduGPTs 頻道貼上,AI 會引用本專區內容回答。

AI 共讀助教正在陪你讀:幻覺、對齊與 AI 安全
嗨!我是這篇文章的共讀助教,只根據〈幻覺、對齊與 AI 安全〉的內容回答。可以問我「解釋某段」「舉個例子」「出題考我」,或反白文中段落後點下方「解釋選取段落」。