Home
探索 Uedu
學生控制台
註冊會員/登入
研究知情同意中心
教師控制台
課程設定
支援與訊息
Uptime 數據

UeduGPTs

--

Jupyters

2

UG26 CISOSE26
臺北 AQI 51 · 臺中 AQI 32 · 臺南 AQI 29 · 高雄 AQI 27

AI 回覆桌面通知

AI 助教回覆完成時顯示桌面通知

聊天訊息通知

同學在討論區發送訊息時通知

聲音通知

每當有新通知時播放提示音

算力與基礎設施
算力與基礎設施

訓練與推論:AI 的成本到底花在哪

搞懂這兩個階段,就看懂了 AI 產品的定價邏輯。

訓練與推論:AI 的成本到底花在哪 概念插圖
概念示意插圖(AI 生成,僅作輔助理解)
研究  ·  約 13 分鐘  ·  基礎設施成本推論研究

兩個成本結構迥異的階段

  • 訓練:把模型「教會」,一次性、超大規模、極昂貴(前沿模型單次可達數百萬至上億美元)。
  • 推論:訓練好後每次回應的運算,單次便宜但發生次數極多——乘上數億使用者,總量同樣驚人。

比喻:訓練像「拍一部電影」(前期巨額、拍完定型);推論像「每次放映」(單場便宜、但放映上億次)。

訓練算力的量級估計

一個常用的近似:訓練浮點運算量 $C\approx 6ND$($N$ 參數量、$D$ 訓練 token 數),係數 6 約略涵蓋前向 + 反向傳播。由此可反推牆鐘時間:

$$ T\approx \frac{C}{\text{(GPU 數)}\times\text{(每卡 FLOP/s)}\times u} $$

$u$ 是實際利用率(常僅 30–50%,受通訊與記憶體限制)。這個式子解釋了「為何要上萬張卡、跑數週」——把 $N,D$ 同時放大,$C$ 隨之爆增。

推論為何按 token 計費

自迴歸生成逐 token 進行,故 API 多按「輸入 + 輸出 token 數」計費——提示越長、回答越長越貴。推論有兩個階段:

  • Prefill:一次處理整個提示(計算受限、可平行)。
  • Decode:逐字生成,每步都要讀取全部權重與 KV cache(記憶體頻寬受限)。

KV cache 把已算過的鍵值快取起來避免重算,但其大小隨上下文長度線性成長,是長上下文推論的記憶體瓶頸——這也是「上下文上限」與「每日用量限制」的工程根源。

降本的主要手段

  • 模型尺寸分級:mini/nano 版犧牲少許能力換大幅降本提速,故同一家常提供大中小多種模型。
  • 量化(quantization):以 INT8/INT4 等低精度表示權重與激活,縮小模型、加快推論、降低記憶體頻寬壓力(如 LLM.int8())。
  • 知識蒸餾:用大「教師」模型的軟標籤訓練小「學生」模型,以小模型逼近大模型能力。
  • 推測解碼、批次化、快取:用小模型草擬、大模型驗證;合併請求;重複查詢快取結果。

對使用者與決策者的意義

理解訓練/推論的成本結構,能解釋許多現象:強模型為何較貴、為何有用量上限、為何要分級選型。對組織而言,長期主導總成本的是推論而非訓練(一次訓練、無數次服務),這正重塑 AI 產品的定價與架構決策。成本從不抽象——它直接決定你能用到什麼。

深入探討(研究所視角)

訓練成本的縮放律與計算最優分配

訓練成本的本質是一個受限最佳化問題:在固定的計算預算 $C$(通常以 FLOPs 計)下,如何分配模型參數量 $N$ 與訓練資料量 $D$ 以最小化損失。經驗上,大型語言模型的損失對 $N$、$D$ 呈冪律下降,可寫成

$$L(N, D) = L_\infty + \frac{A}{N^{\alpha}} + \frac{B}{D^{\beta}},$$

其中 $L_\infty$ 為不可約損失(資料本身的熵下界),$\alpha, \beta$ 為縮放指數。在 Transformer 中,前向與反向傳播的總計算量近似 $C \approx 6ND$(每個參數每個 token 約 6 次浮點運算)。在 $C = 6ND$ 的約束下對 $L$ 做 Lagrange 最佳化,可得 $N_{\text{opt}} \propto C^{a}$、$D_{\text{opt}} \propto C^{b}$。Chinchilla 的關鍵結論是 $a \approx b \approx 0.5$,亦即參數與資料應約略等比例放大——這修正了早期「參數越大越好」的偏見,揭示許多模型其實「訓練不足」(under-trained)。值得注意的是,計算最優並不等於部署最優:若一個模型要服務數十億次推論,刻意「過度訓練」一個較小的模型(增大 $D$、壓低 $N$)反而能攤平整個生命週期的總成本,這正是訓練/推論成本權衡的核心張力。

推論成本的瓶頸:算術強度與記憶體牆

自迴歸解碼的成本結構與訓練截然不同。在 prefill 階段,整段 prompt 可平行處理,運算受計算限制(compute-bound);但在逐 token 的 decode 階段,每次只生成一個 token,需重新讀取全部權重與 KV cache,運算受記憶體頻寬限制(memory-bound)。以 Roofline 模型分析,效能取決於算術強度 $I = \frac{\text{FLOPs}}{\text{Bytes}}$ 與硬體的 ridge point 之比較;decode 階段 $I$ 極低,使昂貴的 GPU 算力大量閒置,這就是所謂的「記憶體牆」。KV cache 的記憶體佔用隨序列長度線性成長,標準注意力的計算更隨 $O(L^2)$ 增長,是長上下文推論成本的主因。

降低成本的進階方向與開放問題

針對上述瓶頸,SOTA 沿數條主線推進。稀疏化:Mixture-of-Experts(MoE)將每個 token 路由到少數專家,使啟用參數遠小於總參數,於是 $C \approx 6ND$ 中的有效 $N$ 下降,訓練與推論同步省算力,但帶來負載均衡與通訊開銷。注意力與快取壓縮:FlashAttention 以分塊與重算(recomputation)避免具現化 $L \times L$ 注意力矩陣,把 IO 複雜度從 $O(L^2)$ 降到接近 $O(L)$;Multi-Query/Grouped-Query Attention 共享 KV 頭以縮小 cache。推論時計算:投機解碼(speculative decoding)用小模型草擬、大模型平行驗證,在不改變輸出分佈的前提下提升吞吐。量化:將權重壓到 INT8/INT4,直接降低記憶體頻寬壓力。理論連結上,這些方法都可視為在 Pareto 前緣上交換「品質—延遲—成本」三者;而 test-time scaling(如以更多推論計算換取更高準確率)更模糊了訓練與推論的界線——它把部分「智慧」從參數移轉到推論時的搜尋,使得「成本花在哪」的答案,正從一次性的訓練資本支出,逐步向持續性的推論營運支出傾斜。如何刻畫此一轉移下的最優分配,仍是開放問題。

接著問 AI 助教

點一下複製提問,到 ClassroomGPT、優學伴(AIDA)或你的 UeduGPTs 頻道貼上,AI 會引用本專區內容回答。

AI 共讀助教正在陪你讀:訓練與推論:AI 的成本到底花在哪
嗨!我是這篇文章的共讀助教,只根據〈訓練與推論:AI 的成本到底花在哪〉的內容回答。可以問我「解釋某段」「舉個例子」「出題考我」,或反白文中段落後點下方「解釋選取段落」。