從專用任務到共享骨架
讓 AI 在真實世界有用,先要讓它能處理感官資料。歷史上 CV、NLP、語音各自發展出專用方法;但 Transformer 與大規模預訓練正讓三者收斂到共享的骨架與表徵。理解每條主線的任務形式化,才能判斷一個應用的難度與可靠度。
電腦視覺:從分類到稠密預測
CV 任務依輸出粒度排成光譜:
- 影像分類:對整張圖輸出類別 $\arg\max_c p(c\mid x)$。
- 物件偵測:同時輸出每個物件的類別與邊界框 $(x,y,w,h)$,評估用 mAP(平均精度)。
- 語意/實例分割:對每個像素分類,是稠密預測。
- 人臉/姿態、深度估計等。
架構從 CNN(ResNet、YOLO)演進到 Vision Transformer:把影像切成 patch 當 token 餵進 Transformer,在大規模資料下超越 CNN。應用遍及醫療影像、自駕、瑕疵檢測。
自然語言處理:被 LLM 統一的領域
NLP 過去為翻譯、摘要、情緒分析、命名實體辨識各設專用模型;如今大型語言模型把它們統一成單一的「文字進、文字出」介面——以提示指定任務即可(見〈提示工程〉)。理解 NLP 的演進(詞袋 → word2vec → BERT 的雙向編碼 → GPT 的自迴歸生成)有助於看清這場統一的脈絡。
語音:辨識與合成
- 語音辨識(ASR):把聲學訊號轉文字,是序列到序列問題;Whisper 以大規模弱監督達到跨語言的穩健度。
- 語音合成(TTS):文字轉自然語音,近年神經式 TTS(含擴散與神經聲碼器)使音質與可仿聲度大幅提升——也帶來語音深偽的風險。
多模態:對齊不同感官的表徵空間
前沿是多模態模型:讓同一系統處理文字、影像、聲音。關鍵技術是跨模態對齊——把不同模態映到同一語意空間。CLIP 用對比學習訓練影像編碼器與文字編碼器,使配對的(圖, 文)向量相近、不配對者相遠:
$$ \mathcal{L}=-\log\frac{\exp(\langle z_i^{\text{img}},z_i^{\text{txt}}\rangle/\tau)}{\sum_j \exp(\langle z_i^{\text{img}},z_j^{\text{txt}}\rangle/\tau)} $$
這種對齊讓「用文字搜尋圖」「文字生圖的條件」「圖文問答」成為可能,是當代多模態大模型(可丟圖提問、上傳語音摘要)的基礎。感官的界線正被打通,讓 AI 更接近人類的綜合理解。
深入探討(研究所視角)
三大感官的統一:序列到序列與注意力的譜系
電腦視覺、自然語言與語音在工程上看似分立,但在表徵學習層面已逐步收斂到同一套框架:以自注意力為核心的序列建模。Transformer 的注意力本質上是一個可微的核迴歸(kernel regression),輸出 $\mathrm{Attn}(Q,K,V)=\mathrm{softmax}\!\left(\frac{QK^\top}{\sqrt{d}}\right)V$,其中 $\sqrt{d}$ 縮放避免了高維內積使 softmax 飽和、梯度趨近於零的問題。將影像切成 patch token(ViT)、將語音切成聲學 frame、將文字切成 subword,本質上都是把不同模態投影到共享的 token 序列空間,再由同一種注意力機制處理。這正是 CLIP、Whisper、以及多模態大模型得以對齊跨模態表徵的理論基礎:透過對比學習最小化配對樣本的距離、最大化非配對樣本的距離,等價於最大化互資訊 $I(X;Y)$ 的一個下界(InfoNCE bound)。
複雜度瓶頸與線性化的近似理論
標準注意力對序列長度 $n$ 的時間與記憶體複雜度為 $O(n^2 d)$,這在高解析影像與長語音上成為硬限制。線性注意力以核特徵映射 $\phi(\cdot)$ 改寫為 $\phi(Q)\big(\phi(K)^\top V\big)$,利用結合律把複雜度降為 $O(nd^2)$。其代價是低秩近似誤差:當真實注意力矩陣秩較高時,$\phi$ 的有限維特徵無法無損還原 softmax 核。狀態空間模型(如 S4、Mamba)則改以連續時間線性系統 $\dot{h}(t)=Ah(t)+Bx(t)$ 離散化為遞迴形式,藉由 HiPPO 理論對歷史訊號做最優多項式投影,在長程依賴上兼顧 $O(n)$ 複雜度與選擇性記憶。
開放問題與理論連結
- 泛化與縮放律:經驗上 loss 隨參數量與資料量呈冪律 $L(N)\propto N^{-\alpha}$,但其指數 $\alpha$ 的理論來源、以及 emergent ability 是否為平滑現象的度量假象,仍是開放爭論。
- 生成模型的理論統一:擴散模型透過學習 score function $\nabla_x\log p(x)$ 並以 Langevin 動力學或反向 SDE 採樣,已成為影像與語音合成的 SOTA;自回歸 token 模型則直接分解 $p(x)=\prod_t p(x_t\mid x_{<t})$。兩者可在隨機插值(stochastic interpolant)框架下視為連續與離散時間的特例。
- 語音的時間結構:語音兼具 CV 的連續性與 NLP 的離散符號性,CTC 損失透過對所有對齊路徑邊際化 $p(y\mid x)=\sum_{\pi\in\mathcal{B}^{-1}(y)}p(\pi\mid x)$ 解決輸入輸出長度不對齊,是序列建模中「潛在對齊」這一更廣問題(與 attention、最優傳輸對齊相通)的典型實例。
這些主線最終指向同一個問題:如何在有限算力下,學到對任意模態都成立的、可組合的世界表徵。