經典機器學習演算法地圖

為何深度學習不是萬靈丹

在表格型資料（結構化特徵）上，經典機器學習往往又快、又準、又可解釋，至今是業界主力；近期多項基準也顯示梯度提升樹在中小型表格任務上常勝過深度網路。理解這些方法的目標函數與歸納偏置，才能在「該不該上深度學習」時做對判斷。

線性模型：可解釋的基石

線性迴歸：$\hat{y}=w^\top x+b$，最小化平方誤差，閉式解 $w=(X^\top X)^{-1}X^\top y$。
邏輯迴歸：名為迴歸實為分類，$p(y{=}1\mid x)=\sigma(w^\top x+b)$，最小化交叉熵；決策邊界為超平面。

兩者透明、係數可解釋，是任何專案該先建立的基準線（baseline）。

核方法與 SVM：間隔最大化

支援向量機 尋找把兩類分開且間隔（margin）最大的超平面。硬間隔問題為

$$ \min_{w,b}\tfrac{1}{2}\lVert w\rVert^2\quad \text{s.t.}\quad y_i(w^\top x_i+b)\ge 1 $$

其對偶形式只透過內積 $\langle x_i,x_j\rangle$ 依賴資料，於是可用核技巧（kernel trick）：以核函數 $k(x,x')=\langle\phi(x),\phi(x')\rangle$ 隱式映射到高維特徵空間，無需顯式計算 $\phi$，即能學非線性邊界（如 RBF 核）。這是「在原空間非線性、在特徵空間線性」的優雅範式。

決策樹與集成：兩種降誤差的路線

決策樹以遞迴切分特徵空間，分裂準則最小化不純度，如吉尼不純度 $G=\sum_c p_c(1-p_c)$ 或熵 $H=-\sum_c p_c\log p_c$。單樹直覺但高變異、易過擬合。集成有兩條互補路線：

Bagging／隨機森林：在自助樣本與隨機特徵子集上種多棵樹再平均，主要降低變異。
Boosting：序列地讓每棵新樹擬合前面殘差，主要降低偏差。梯度提升把它形式化為函數空間的梯度下降：第 $m$ 步加上一棵逼近負梯度 $-\partial \ell/\partial F_{m-1}$ 的樹，

$$ F_m(x)=F_{m-1}(x)+\nu\,h_m(x) $$

XGBoost／LightGBM 是其高效實作，為表格資料競賽常勝軍。

非監督與降維

K-means：最小化群內平方和，Lloyd 演算法交替指派與更新中心。
PCA：對共變異矩陣 $\Sigma$ 做特徵分解，取最大特徵值對應方向為主成分，等價於最大化投影變異數、最小化重建誤差。
KNN：無訓練、以最近 $k$ 個鄰居投票，是「惰性學習」的代表。

選型的方法論

務實順序：先 baseline（線性／邏輯迴歸）→ 視需要上梯度提升 → 最後才考慮深度學習。判準是資料結構與歸納偏置：表格、特徵已工程化、需可解釋 → 經典方法常勝；影像／語音／文字等高維非結構資料、有大量樣本 → 深度學習的表徵學習才有壓倒性優勢。沒有「最強演算法」，只有「最匹配問題結構的歸納偏置」（呼應〈什麼是人工智慧〉的 No Free Lunch）。

深入探討（研究所視角）

邊界與間隔：從幾何到對偶與核技巧

支援向量機的真正威力，在於把「最大化間隔」的幾何直覺翻譯成一個有強對偶性的凸二次規劃。原始問題 $\min_{w,b}\tfrac{1}{2}\|w\|^2$ s.t. $y_i(w^\top x_i+b)\ge 1$ 透過 Lagrange 對偶轉為 $$\max_{\alpha}\ \sum_i \alpha_i - \tfrac12\sum_{i,j}\alpha_i\alpha_j y_i y_j\,K(x_i,x_j),\quad 0\le\alpha_i\le C,\ \sum_i\alpha_i y_i=0.$$ 這裡 KKT 條件中的互補鬆弛 $\alpha_i\big(y_i(w^\top x_i+b)-1\big)=0$ 直接揭示了「支援向量」的稀疏性：只有落在間隔上或被違反的點才有 $\alpha_i>0$。核函數 $K$ 之所以能取代內積，根據 Mercer 定理需滿足正半定性，等價於存在再生核 Hilbert 空間（RKHS）使 $K(x,x')=\langle\phi(x),\phi(x')\rangle$。這把線性方法無痛延伸到無窮維特徵空間，而 Representer Theorem 進一步保證最優解恆可寫成訓練點核的線性組合 $f(\cdot)=\sum_i\alpha_i K(x_i,\cdot)$——這是所有核方法（核脊迴歸、高斯過程）共享的理論基石。

泛化界與偏差—變異的再認識

為什麼最大間隔能泛化？經典分析給出與輸入維度無關、僅與間隔 $\gamma$ 和資料半徑 $R$ 相關的界，例如基於 Rademacher 複雜度可得期望風險被經驗間隔損失加上 $O\!\big(R/(\gamma\sqrt{n})\big)$ 量級的項所控制。這與 VC 維觀點互補，也解釋了核 SVM 在高維小樣本下的穩健性。集成方法則從另一個角度切入：Bagging 透過降低變異而幾乎不動偏差；Boosting（AdaBoost）則被證明等價於對指數損失 $\sum_i e^{-y_i F(x_i)}$ 做前向逐步加法建模（Friedman、Hastie、Tibshirani 的統計觀點），而梯度提升把它推廣為對任意可微損失在函數空間做最速下降，XGBoost、LightGBM 再加入二階泰勒展開與正則化的葉權重 $w_j=-G_j/(H_j+\lambda)$，至今仍是表格資料的 SOTA。

開放問題與理論連結

值得注意的是，AdaBoost 即便在訓練誤差歸零後持續迭代仍不過擬合，這個「間隔理論」與近年深度學習的雙重下降（double descent）、良性過擬合（benign overfitting）現象遙相呼應，暗示經典與現代模型共享更深層的隱式正則化機制。其他活躍方向包括：核方法與神經網路的橋樑——無窮寬網路在 NTK（Neural Tangent Kernel）極限下退化為核迴歸；隨機特徵（Random Fourier Features）以 $\phi(x)\approx[\cos(\omega^\top x+b)]$ 近似核矩陣，把 $O(n^2)$ 的核計算降到可擴展量級；以及在分布偏移、對抗穩健性下重新審視間隔與校準的關係。一個尚未完全解決的問題是：如何在保有可解釋性與理論保證的前提下，讓核選擇（或等價的歸納偏置設計）達到深度表徵學習的自動化程度。這正是經典機器學習在深度學習時代仍持續被研究、而非被取代的根本原因。

--

0

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings