模型只是冰山一角
新聞聚焦「模型多強」,但創造價值的是把模型可靠地變成產品並長期維運。Sculley 等人的經典論文指出:在真實 ML 系統裡,模型程式碼往往只佔一小部分,周圍環繞著資料蒐集、特徵工程、驗證、監控、服務基礎設施等大量「隱性技術債」。這個工程領域稱 MLOps。
生命週期:一個持續迴圈
MLOps 不是線性流程而是閉環:資料準備 → 訓練/實驗(含可重現性與版本控管)→ 多維評估 → 部署 → 監控 → 用新資料迭代。其中資料準備常佔最大工時——「垃圾進、垃圾出」,再先進的架構餵了雜亂或偏誤資料,也只會學出雜亂或偏誤的結果。
上線後的核心敵人:分布漂移
模型在訓練分布上學成,但真實世界會變,導致效能隨時間衰退。形式上分兩類漂移:
- 資料漂移(covariate shift):輸入分布改變 $p(x)$ 變,但 $p(y\mid x)$ 不變(如出現新詞、新使用者族群)。
- 概念漂移(concept drift):輸入與標籤的關係 $p(y\mid x)$ 本身改變(如詐騙手法演化、用戶偏好遷移)。
因此監控不只看系統指標(延遲、吞吐),還要監測輸入分布、預測分布與線上表現,並設漂移警示與自動/人工再訓練機制。
評估:遠不只準確率
部署級評估是多目標的:除了準確率,還要公平性(跨群體表現)、穩健性(對抗與分布外)、延遲與成本、可解釋性與安全。Google 的「ML Test Score」把這些落成可稽核的測試清單——成熟的 ML 系統像軟體工程一樣需要系統性測試與監控,而非一次性離線評估。
LLM 時代的新挑戰
生成式系統把難題再放大:輸出開放、難有單一正確答案,故倚重人評、LLM-as-judge 與線上 A/B;還需防提示注入、資料外洩、幻覺;並管理對外部模型 API 的依賴與版本變動。可觀測性(記錄提示、回應、檢索內容)成為除錯與改進的基礎。
對學習者的啟示
想進 AI 領域,別只盯「會不會訓練模型」。資料工程、評估設計、部署、監控、可靠性這些「不華麗但關鍵」的能力,往往才是業界最缺、最值錢的。理解整條鏈,你才看得懂一個 AI 產品為何成功或失敗——多數失敗不在模型不夠強,而在工程與資料的環節。
深入探討(研究所視角)
部署即推論最佳化:從吞吐量到延遲的根本張力
當模型進入服務階段,工程核心不再是降低訓練損失,而是在固定硬體預算下最大化「有效吞吐量」並滿足尾端延遲的服務水準目標(SLO)。Transformer 自迴歸推論的成本結構由兩個階段主導:prefill(一次平行處理整段 prompt,為計算受限 compute-bound)與 decode(逐 token 生成,受 KV cache 讀寫頻寬限制 memory-bound)。設批次大小 $B$、序列長度 $L$、模型維度 $d$、層數 $\ell$,KV cache 記憶體佔用為
$$ M_{\text{KV}} = 2 \cdot B \cdot L \cdot \ell \cdot d \cdot b, $$
其中 $b$ 為每元素位元組數。這個 $O(BL)$ 的線性成長正是長上下文服務的瓶頸所在:當 $L$ 達數萬,KV cache 體積可超過模型權重本身,使 decode 階段的算術強度(arithmetic intensity)遠低於 GPU 的脊點(ridge point),導致張量核心嚴重閒置。PagedAttention(vLLM 的核心機制)借用作業系統虛擬記憶體的分頁思想,將 KV cache 切成非連續區塊以消除碎片化,把可服務的並發請求數提升數倍——這是系統設計直接改寫推論經濟學的典型案例。
量化的理論邊界與離群值問題
降低 $b$ 是壓縮 $M_{\text{KV}}$ 與權重最直接的手段,但量化並非無損。將浮點權重映射到低位元整數的均勻量化器,其量化誤差在高解析度極限下近似均勻分布,均方誤差為 $\sigma_q^2 = \Delta^2 / 12$,其中步長 $\Delta = (x_{\max}-x_{\min})/(2^{n}-1)$。問題在於 LLM 的激活值存在系統性離群值(outlier features):少數維度的數值幅度可比其餘大兩個數量級,使整個張量的 $x_{\max}$ 被拉高、量化解析度被稀釋。SmoothQuant 透過將量化難度在激活與權重間做等價的數學遷移(per-channel 縮放因子)緩解此問題;GPTQ 則以逐層的近似二階資訊(Hessian 的對角近似與 OBS 思想)逐欄校正權重,在 4-bit 下仍維持低困惑度。這揭示一個更深的原理:模型的可壓縮性與其損失曲面的曲率密切相關——平坦方向可大膽量化,陡峭方向必須保真。
分散式服務、漂移偵測與開放問題
當單一模型無法容於單卡,張量平行(tensor parallelism)沿權重矩陣切分、流水線平行(pipeline parallelism)沿層切分,兩者的通訊成本與計算重疊程度決定了擴展效率,其上限可由類 Amdahl 定律與通訊–計算比刻畫。落地後真正棘手的是分布漂移:訓練分布 $P_{\text{train}}$ 與線上分布 $P_{\text{serve}}$ 隨時間發散,可用 population stability index 或 KL 散度 $D_{\mathrm{KL}}(P_{\text{serve}} \| P_{\text{train}})$ 監測,但在無標籤的生產環境下,如何在不重訓的前提下「無監督地」估計準確率衰退,仍是開放問題。這與分布外泛化(OOD generalization)、共形預測(conformal prediction,提供分布無關的覆蓋保證)等理論方向直接連結。最終,MLOps 的研究前沿正從「把模型部署好」轉向「讓系統能自我觀測、自我校準」——一個融合分散式系統、統計學習理論與控制論的交叉地帶。