從模型到產品：MLOps 與 AI 落地

模型只是冰山一角

新聞聚焦「模型多強」，但創造價值的是把模型可靠地變成產品並長期維運。Sculley 等人的經典論文指出：在真實 ML 系統裡，模型程式碼往往只佔一小部分，周圍環繞著資料蒐集、特徵工程、驗證、監控、服務基礎設施等大量「隱性技術債」。這個工程領域稱 MLOps。

生命週期：一個持續迴圈

MLOps 不是線性流程而是閉環：資料準備 → 訓練／實驗（含可重現性與版本控管）→ 多維評估 → 部署 → 監控 → 用新資料迭代。其中資料準備常佔最大工時——「垃圾進、垃圾出」，再先進的架構餵了雜亂或偏誤資料，也只會學出雜亂或偏誤的結果。

上線後的核心敵人：分布漂移

模型在訓練分布上學成，但真實世界會變，導致效能隨時間衰退。形式上分兩類漂移：

資料漂移（covariate shift）：輸入分布改變 $p(x)$ 變，但 $p(y\mid x)$ 不變（如出現新詞、新使用者族群）。
概念漂移（concept drift）：輸入與標籤的關係 $p(y\mid x)$ 本身改變（如詐騙手法演化、用戶偏好遷移）。

因此監控不只看系統指標（延遲、吞吐），還要監測輸入分布、預測分布與線上表現，並設漂移警示與自動／人工再訓練機制。

評估：遠不只準確率

部署級評估是多目標的：除了準確率，還要公平性（跨群體表現）、穩健性（對抗與分布外）、延遲與成本、可解釋性與安全。Google 的「ML Test Score」把這些落成可稽核的測試清單——成熟的 ML 系統像軟體工程一樣需要系統性測試與監控，而非一次性離線評估。

LLM 時代的新挑戰

生成式系統把難題再放大：輸出開放、難有單一正確答案，故倚重人評、LLM-as-judge 與線上 A/B；還需防提示注入、資料外洩、幻覺；並管理對外部模型 API 的依賴與版本變動。可觀測性（記錄提示、回應、檢索內容）成為除錯與改進的基礎。

對學習者的啟示

想進 AI 領域，別只盯「會不會訓練模型」。資料工程、評估設計、部署、監控、可靠性這些「不華麗但關鍵」的能力，往往才是業界最缺、最值錢的。理解整條鏈，你才看得懂一個 AI 產品為何成功或失敗——多數失敗不在模型不夠強，而在工程與資料的環節。

深入探討（研究所視角）

部署即推論最佳化：從吞吐量到延遲的根本張力

當模型進入服務階段，工程核心不再是降低訓練損失，而是在固定硬體預算下最大化「有效吞吐量」並滿足尾端延遲的服務水準目標（SLO）。Transformer 自迴歸推論的成本結構由兩個階段主導：prefill（一次平行處理整段 prompt，為計算受限 compute-bound）與 decode（逐 token 生成，受 KV cache 讀寫頻寬限制 memory-bound）。設批次大小 $B$、序列長度 $L$、模型維度 $d$、層數 $\ell$，KV cache 記憶體佔用為

$$ M_{\text{KV}} = 2 \cdot B \cdot L \cdot \ell \cdot d \cdot b, $$

其中 $b$ 為每元素位元組數。這個 $O(BL)$ 的線性成長正是長上下文服務的瓶頸所在：當 $L$ 達數萬，KV cache 體積可超過模型權重本身，使 decode 階段的算術強度（arithmetic intensity）遠低於 GPU 的脊點（ridge point），導致張量核心嚴重閒置。PagedAttention（vLLM 的核心機制）借用作業系統虛擬記憶體的分頁思想，將 KV cache 切成非連續區塊以消除碎片化，把可服務的並發請求數提升數倍——這是系統設計直接改寫推論經濟學的典型案例。

量化的理論邊界與離群值問題

降低 $b$ 是壓縮 $M_{\text{KV}}$ 與權重最直接的手段，但量化並非無損。將浮點權重映射到低位元整數的均勻量化器，其量化誤差在高解析度極限下近似均勻分布，均方誤差為 $\sigma_q^2 = \Delta^2 / 12$，其中步長 $\Delta = (x_{\max}-x_{\min})/(2^{n}-1)$。問題在於 LLM 的激活值存在系統性離群值（outlier features）：少數維度的數值幅度可比其餘大兩個數量級，使整個張量的 $x_{\max}$ 被拉高、量化解析度被稀釋。SmoothQuant 透過將量化難度在激活與權重間做等價的數學遷移（per-channel 縮放因子）緩解此問題；GPTQ 則以逐層的近似二階資訊（Hessian 的對角近似與 OBS 思想）逐欄校正權重，在 4-bit 下仍維持低困惑度。這揭示一個更深的原理：模型的可壓縮性與其損失曲面的曲率密切相關——平坦方向可大膽量化，陡峭方向必須保真。

分散式服務、漂移偵測與開放問題

當單一模型無法容於單卡，張量平行（tensor parallelism）沿權重矩陣切分、流水線平行（pipeline parallelism）沿層切分，兩者的通訊成本與計算重疊程度決定了擴展效率，其上限可由類 Amdahl 定律與通訊–計算比刻畫。落地後真正棘手的是分布漂移：訓練分布 $P_{\text{train}}$ 與線上分布 $P_{\text{serve}}$ 隨時間發散，可用 population stability index 或 KL 散度 $D_{\mathrm{KL}}(P_{\text{serve}} \| P_{\text{train}})$ 監測，但在無標籤的生產環境下，如何在不重訓的前提下「無監督地」估計準確率衰退，仍是開放問題。這與分布外泛化（OOD generalization）、共形預測（conformal prediction，提供分布無關的覆蓋保證）等理論方向直接連結。最終，MLOps 的研究前沿正從「把模型部署好」轉向「讓系統能自我觀測、自我校準」——一個融合分散式系統、統計學習理論與控制論的交叉地帶。

--

0

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings