訓練與推論：AI 的成本到底花在哪

兩個成本結構迥異的階段

訓練：把模型「教會」，一次性、超大規模、極昂貴（前沿模型單次可達數百萬至上億美元）。
推論：訓練好後每次回應的運算，單次便宜但發生次數極多——乘上數億使用者，總量同樣驚人。

比喻：訓練像「拍一部電影」（前期巨額、拍完定型）；推論像「每次放映」（單場便宜、但放映上億次）。

訓練算力的量級估計

一個常用的近似：訓練浮點運算量 $C\approx 6ND$（$N$ 參數量、$D$ 訓練 token 數），係數 6 約略涵蓋前向 + 反向傳播。由此可反推牆鐘時間：

$$ T\approx \frac{C}{\text{(GPU 數)}\times\text{(每卡 FLOP/s)}\times u} $$

$u$ 是實際利用率（常僅 30–50%，受通訊與記憶體限制）。這個式子解釋了「為何要上萬張卡、跑數週」——把 $N,D$ 同時放大，$C$ 隨之爆增。

推論為何按 token 計費

自迴歸生成逐 token 進行，故 API 多按「輸入 + 輸出 token 數」計費——提示越長、回答越長越貴。推論有兩個階段：

Prefill：一次處理整個提示（計算受限、可平行）。
Decode：逐字生成，每步都要讀取全部權重與 KV cache（記憶體頻寬受限）。

KV cache 把已算過的鍵值快取起來避免重算，但其大小隨上下文長度線性成長，是長上下文推論的記憶體瓶頸——這也是「上下文上限」與「每日用量限制」的工程根源。

降本的主要手段

模型尺寸分級：mini／nano 版犧牲少許能力換大幅降本提速，故同一家常提供大中小多種模型。
量化（quantization）：以 INT8／INT4 等低精度表示權重與激活，縮小模型、加快推論、降低記憶體頻寬壓力（如 LLM.int8()）。
知識蒸餾：用大「教師」模型的軟標籤訓練小「學生」模型，以小模型逼近大模型能力。
推測解碼、批次化、快取：用小模型草擬、大模型驗證；合併請求；重複查詢快取結果。

對使用者與決策者的意義

理解訓練／推論的成本結構，能解釋許多現象：強模型為何較貴、為何有用量上限、為何要分級選型。對組織而言，長期主導總成本的是推論而非訓練（一次訓練、無數次服務），這正重塑 AI 產品的定價與架構決策。成本從不抽象——它直接決定你能用到什麼。

深入探討（研究所視角）

訓練成本的縮放律與計算最優分配

訓練成本的本質是一個受限最佳化問題：在固定的計算預算 $C$（通常以 FLOPs 計）下，如何分配模型參數量 $N$ 與訓練資料量 $D$ 以最小化損失。經驗上，大型語言模型的損失對 $N$、$D$ 呈冪律下降，可寫成

$$L(N, D) = L_\infty + \frac{A}{N^{\alpha}} + \frac{B}{D^{\beta}},$$

其中 $L_\infty$ 為不可約損失（資料本身的熵下界），$\alpha, \beta$ 為縮放指數。在 Transformer 中，前向與反向傳播的總計算量近似 $C \approx 6ND$（每個參數每個 token 約 6 次浮點運算）。在 $C = 6ND$ 的約束下對 $L$ 做 Lagrange 最佳化，可得 $N_{\text{opt}} \propto C^{a}$、$D_{\text{opt}} \propto C^{b}$。Chinchilla 的關鍵結論是 $a \approx b \approx 0.5$，亦即參數與資料應約略等比例放大——這修正了早期「參數越大越好」的偏見，揭示許多模型其實「訓練不足」（under-trained）。值得注意的是，計算最優並不等於部署最優：若一個模型要服務數十億次推論，刻意「過度訓練」一個較小的模型（增大 $D$、壓低 $N$）反而能攤平整個生命週期的總成本，這正是訓練／推論成本權衡的核心張力。

推論成本的瓶頸：算術強度與記憶體牆

自迴歸解碼的成本結構與訓練截然不同。在 prefill 階段，整段 prompt 可平行處理，運算受計算限制（compute-bound）；但在逐 token 的 decode 階段，每次只生成一個 token，需重新讀取全部權重與 KV cache，運算受記憶體頻寬限制（memory-bound）。以 Roofline 模型分析，效能取決於算術強度 $I = \frac{\text{FLOPs}}{\text{Bytes}}$ 與硬體的 ridge point 之比較；decode 階段 $I$ 極低，使昂貴的 GPU 算力大量閒置，這就是所謂的「記憶體牆」。KV cache 的記憶體佔用隨序列長度線性成長，標準注意力的計算更隨 $O(L^2)$ 增長，是長上下文推論成本的主因。

降低成本的進階方向與開放問題

針對上述瓶頸，SOTA 沿數條主線推進。稀疏化：Mixture-of-Experts（MoE）將每個 token 路由到少數專家，使啟用參數遠小於總參數，於是 $C \approx 6ND$ 中的有效 $N$ 下降，訓練與推論同步省算力，但帶來負載均衡與通訊開銷。注意力與快取壓縮：FlashAttention 以分塊與重算（recomputation）避免具現化 $L \times L$ 注意力矩陣，把 IO 複雜度從 $O(L^2)$ 降到接近 $O(L)$；Multi-Query／Grouped-Query Attention 共享 KV 頭以縮小 cache。推論時計算：投機解碼（speculative decoding）用小模型草擬、大模型平行驗證，在不改變輸出分佈的前提下提升吞吐。量化：將權重壓到 INT8／INT4，直接降低記憶體頻寬壓力。理論連結上，這些方法都可視為在 Pareto 前緣上交換「品質—延遲—成本」三者；而 test-time scaling（如以更多推論計算換取更高準確率）更模糊了訓練與推論的界線——它把部分「智慧」從參數移轉到推論時的搜尋，使得「成本花在哪」的答案，正從一次性的訓練資本支出，逐步向持續性的推論營運支出傾斜。如何刻畫此一轉移下的最優分配，仍是開放問題。

--

0

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings