Home
探索 Uedu
學生控制台
註冊會員/登入
研究知情同意中心
教師控制台
課程設定
支援與訊息
Uptime 數據

UeduGPTs

--

Jupyters

2

UG26 CISOSE26
臺北 AQI 51 · 臺中 AQI 32 · 臺南 AQI 29 · 高雄 AQI 27

AI 回覆桌面通知

AI 助教回覆完成時顯示桌面通知

聊天訊息通知

同學在討論區發送訊息時通知

聲音通知

每當有新通知時播放提示音

AI 倫理與治理
AI 倫理與治理

資料隱私與同意:你的資料去了哪裡

AI 吃資料長大,而那些資料常常就是「我們」。

資料隱私與同意:你的資料去了哪裡 概念插圖
概念示意插圖(AI 生成,僅作輔助理解)
研究  ·  約 13 分鐘  ·  倫理隱私差分隱私研究

為何隱私是 AI 的結構性難題

AI 的能力來自資料,而資料往往來自人——搜尋、貼文、照片、對話、甚至生理數據。模型越強,吞下的個人資料通常越多,使隱私成為 AI 無法迴避的前線。更棘手的是:模型的參數本身可能「記住」了訓練資料,使隱私風險不只在資料庫,也在模型權重裡

模型會記憶:可被攻擊的事實

兩類經實證的攻擊揭示風險的嚴重性:

  • 訓練資料提取:Carlini 等人證明,可從 LLM 中逐字抽出訓練語料裡的敏感片段(姓名、電話、金鑰)。大模型對罕見樣本有非平凡的記憶。
  • 成員推斷(membership inference):攻擊者僅憑模型輸出,就能判斷「某筆資料是否在訓練集中」——這本身即洩漏。

加上再識別(看似匿名的資料經交叉比對反推身分)與二次利用(為 A 目的提供卻用於 B),構成隱私的四大風險面。

差分隱私:可量化的隱私保證

差分隱私(DP) 給「隱私」一個數學定義:一個隨機演算法 $\mathcal{M}$ 滿足 $\varepsilon$-DP,若對任意僅差一筆記錄的相鄰資料集 $D,D'$ 與任意輸出集合 $S$:

$$ P[\mathcal{M}(D)\in S]\le e^{\varepsilon}\,P[\mathcal{M}(D')\in S] $$

直觀上:任何單一個人在或不在資料中,幾乎不改變輸出分布,故無法從結果反推個體。$\varepsilon$ 越小隱私越強,但通常以效用為代價(隱私—效用權衡)。DP-SGD 在訓練時對梯度裁剪並加噪,以可證明的方式限制記憶。

隱私增強技術光譜

  • 聯邦學習:資料留在本地,只交換模型更新(但更新仍可能洩漏,需配 DP)。
  • 去識別化與加密:k-匿名、安全多方計算、同態加密。
  • 資料最小化:只蒐集必要資料,從源頭降風險。

沒有單一銀彈——實務上組合使用,並依風險等級調配。

制度原則與 Uedu 的立場

技術之外,治理原則同等重要:知情同意(蒐集前說明用途並可拒絕)、目的限制可撤回(隨時查詢、修改、刪除)。本平台處理學習歷程與生理數據(HRV、睡眠)時遵循 Privacy by Design:收集前須同意、存取需驗權、同意可持久撤回;對敏感資料「重申用途與保護」不嫌多,讓使用者是「幫助改善的夥伴」而非「被蒐集的對象」。

對個人的實用建議

不要把高度機密資訊貼進公開 AI 工具;留意條款中「輸入是否用於訓練」;善用「不納入訓練/刪除紀錄」設定。隱私不是技術細節,而是信任的基礎——沒有信任,再強的 AI 也無法長久。

深入探討(研究所視角)

從 $\varepsilon$-DP 到 Rényi 差分隱私與隱私會計

入門段落以 $(\varepsilon,\delta)$-差分隱私(differential privacy, DP)的標準定義為核心,但實務上訓練深度模型需上萬次梯度更新,每一步都消耗隱私預算,樸素的合成(composition)會讓 $\varepsilon$ 線性爆炸。進階做法改用 Rényi 差分隱私(RDP):稱機制 $M$ 滿足 $(\alpha,\rho)$-RDP,若對任意相鄰資料集 $D,D'$,其輸出分布的 $\alpha$ 階 Rényi 散度滿足

$$D_\alpha\!\left(M(D)\,\|\,M(D')\right)=\frac{1}{\alpha-1}\log \mathbb{E}_{x\sim M(D')}\!\left[\left(\frac{M(D)(x)}{M(D')(x)}\right)^{\alpha}\right]\le \rho.$$

RDP 的關鍵優勢在於合成定理是可加的:$k$ 個 $(\alpha,\rho)$-RDP 機制串接後為 $(\alpha,k\rho)$-RDP,最後再透過轉換引理把 $(\alpha,\rho)$ 換算回 $(\varepsilon,\delta)$,即 $\varepsilon=\rho+\frac{\log(1/\delta)}{\alpha-1}$,並對 $\alpha$ 取最小化。這正是 DP-SGD 中「moments accountant / 隱私會計」的理論骨架——對梯度做 $\ell_2$ 範數裁剪(clipping)後加入高斯噪聲,再用 sub-sampled Gaussian mechanism 的 RDP 上界逐步累計預算。

成員推論、記憶化與 SOTA 攻防

隱私風險的可操作化來自成員推論攻擊(membership inference, MIA)。其最強形式可化為一個 Neyman–Pearson 假設檢定:判別樣本 $z$ 是否屬於訓練集。近年的 LiRA(Likelihood Ratio Attack)以 shadow models 估計樣本在「成員 / 非成員」兩種分布下的損失似然比,並強調應在低偽陽性率(low FPR)區間衡量 TPR,而非單看平均準確率——因為隱私洩漏的本質是「少數最脆弱樣本」被確定性識別。DP 之所以是 MIA 的根本防線,正因 $(\varepsilon,\delta)$ 直接上界了任何攻擊者可達的 TPR/FPR 權衡(advantage $\le$ 與 $\varepsilon,\delta$ 相關的函數)。與此互補的是大型語言模型的訓練資料萃取(extraction):模型對罕見序列的逐字記憶化使對手能還原原文,研究顯示記憶傾向隨模型規模、資料重複次數而上升,這把抽象的 $\varepsilon$ 與「我的個資被一字不差吐出」之間建立了實證橋樑。

開放問題與跨主題理論連結

當前仍是活躍的開放問題:其一是 DP 與公平性的張力——加噪對長尾子群的效用損害不成比例,隱私保障可能加劇模型偏誤;其二是審計(auditing),即如何用經驗下界反推一個號稱 $\varepsilon$ 的實作是否名實相符,這與統計檢定的最優性緊密相連。理論上,DP 與 PAC-Bayes 泛化界 共享資訊論的根:限制單一樣本對輸出的影響(演算法穩定性)同時意味著「不過度記憶」與「能泛化」,呼應了以互資訊 $I(D;M(D))$ 上界泛化誤差的觀點。在治理層面,聯邦學習 + 安全聚合 + DP 的組合區分了「資料不離開裝置」(保密性)與「彙整結果不洩漏個體」(差分隱私)兩種正交保證,唯有同時成立,「你的資料去了哪裡」才有可被數學驗證的答案。

接著問 AI 助教

點一下複製提問,到 ClassroomGPT、優學伴(AIDA)或你的 UeduGPTs 頻道貼上,AI 會引用本專區內容回答。

AI 共讀助教正在陪你讀:資料隱私與同意:你的資料去了哪裡
嗨!我是這篇文章的共讀助教,只根據〈資料隱私與同意:你的資料去了哪裡〉的內容回答。可以問我「解釋某段」「舉個例子」「出題考我」,或反白文中段落後點下方「解釋選取段落」。