電腦視覺、自然語言與語音：AI 的三大感官

從專用任務到共享骨架

讓 AI 在真實世界有用，先要讓它能處理感官資料。歷史上 CV、NLP、語音各自發展出專用方法；但 Transformer 與大規模預訓練正讓三者收斂到共享的骨架與表徵。理解每條主線的任務形式化，才能判斷一個應用的難度與可靠度。

電腦視覺：從分類到稠密預測

CV 任務依輸出粒度排成光譜：

影像分類：對整張圖輸出類別 $\arg\max_c p(c\mid x)$。
物件偵測：同時輸出每個物件的類別與邊界框 $(x,y,w,h)$，評估用 mAP（平均精度）。
語意／實例分割：對每個像素分類，是稠密預測。
人臉／姿態、深度估計等。

架構從 CNN（ResNet、YOLO）演進到 Vision Transformer：把影像切成 patch 當 token 餵進 Transformer，在大規模資料下超越 CNN。應用遍及醫療影像、自駕、瑕疵檢測。

自然語言處理：被 LLM 統一的領域

NLP 過去為翻譯、摘要、情緒分析、命名實體辨識各設專用模型；如今大型語言模型把它們統一成單一的「文字進、文字出」介面——以提示指定任務即可（見〈提示工程〉）。理解 NLP 的演進（詞袋 → word2vec → BERT 的雙向編碼 → GPT 的自迴歸生成）有助於看清這場統一的脈絡。

語音：辨識與合成

語音辨識（ASR）：把聲學訊號轉文字，是序列到序列問題；Whisper 以大規模弱監督達到跨語言的穩健度。
語音合成（TTS）：文字轉自然語音，近年神經式 TTS（含擴散與神經聲碼器）使音質與可仿聲度大幅提升——也帶來語音深偽的風險。

多模態：對齊不同感官的表徵空間

前沿是多模態模型：讓同一系統處理文字、影像、聲音。關鍵技術是跨模態對齊——把不同模態映到同一語意空間。CLIP 用對比學習訓練影像編碼器與文字編碼器，使配對的（圖, 文）向量相近、不配對者相遠：

$$ \mathcal{L}=-\log\frac{\exp(\langle z_i^{\text{img}},z_i^{\text{txt}}\rangle/\tau)}{\sum_j \exp(\langle z_i^{\text{img}},z_j^{\text{txt}}\rangle/\tau)} $$

這種對齊讓「用文字搜尋圖」「文字生圖的條件」「圖文問答」成為可能，是當代多模態大模型（可丟圖提問、上傳語音摘要）的基礎。感官的界線正被打通，讓 AI 更接近人類的綜合理解。

深入探討（研究所視角）

三大感官的統一：序列到序列與注意力的譜系

電腦視覺、自然語言與語音在工程上看似分立，但在表徵學習層面已逐步收斂到同一套框架：以自注意力為核心的序列建模。Transformer 的注意力本質上是一個可微的核迴歸（kernel regression），輸出 $\mathrm{Attn}(Q,K,V)=\mathrm{softmax}\!\left(\frac{QK^\top}{\sqrt{d}}\right)V$，其中 $\sqrt{d}$ 縮放避免了高維內積使 softmax 飽和、梯度趨近於零的問題。將影像切成 patch token（ViT）、將語音切成聲學 frame、將文字切成 subword，本質上都是把不同模態投影到共享的 token 序列空間，再由同一種注意力機制處理。這正是 CLIP、Whisper、以及多模態大模型得以對齊跨模態表徵的理論基礎：透過對比學習最小化配對樣本的距離、最大化非配對樣本的距離，等價於最大化互資訊 $I(X;Y)$ 的一個下界（InfoNCE bound）。

複雜度瓶頸與線性化的近似理論

標準注意力對序列長度 $n$ 的時間與記憶體複雜度為 $O(n^2 d)$，這在高解析影像與長語音上成為硬限制。線性注意力以核特徵映射 $\phi(\cdot)$ 改寫為 $\phi(Q)\big(\phi(K)^\top V\big)$，利用結合律把複雜度降為 $O(nd^2)$。其代價是低秩近似誤差：當真實注意力矩陣秩較高時，$\phi$ 的有限維特徵無法無損還原 softmax 核。狀態空間模型（如 S4、Mamba）則改以連續時間線性系統 $\dot{h}(t)=Ah(t)+Bx(t)$ 離散化為遞迴形式，藉由 HiPPO 理論對歷史訊號做最優多項式投影，在長程依賴上兼顧 $O(n)$ 複雜度與選擇性記憶。

開放問題與理論連結

泛化與縮放律：經驗上 loss 隨參數量與資料量呈冪律 $L(N)\propto N^{-\alpha}$，但其指數 $\alpha$ 的理論來源、以及 emergent ability 是否為平滑現象的度量假象，仍是開放爭論。
生成模型的理論統一：擴散模型透過學習 score function $\nabla_x\log p(x)$ 並以 Langevin 動力學或反向 SDE 採樣，已成為影像與語音合成的 SOTA；自回歸 token 模型則直接分解 $p(x)=\prod_t p(x_t\mid x_{<t})$。兩者可在隨機插值（stochastic interpolant）框架下視為連續與離散時間的特例。
語音的時間結構：語音兼具 CV 的連續性與 NLP 的離散符號性，CTC 損失透過對所有對齊路徑邊際化 $p(y\mid x)=\sum_{\pi\in\mathcal{B}^{-1}(y)}p(\pi\mid x)$ 解決輸入輸出長度不對齊，是序列建模中「潛在對齊」這一更廣問題（與 attention、最優傳輸對齊相通）的典型實例。

這些主線最終指向同一個問題：如何在有限算力下，學到對任意模態都成立的、可組合的世界表徵。

--

0

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings