Home
探索 Uedu
學生控制台
註冊會員/登入
研究知情同意中心
教師控制台
課程設定
支援與訊息
Uptime 數據

UeduGPTs

--

Jupyters

2

UG26 CISOSE26
臺北 AQI 51 · 臺中 AQI 32 · 臺南 AQI 29 · 高雄 AQI 27

AI 回覆桌面通知

AI 助教回覆完成時顯示桌面通知

聊天訊息通知

同學在討論區發送訊息時通知

聲音通知

每當有新通知時播放提示音

AI 應用
AI 應用

電腦視覺、自然語言與語音:AI 的三大感官

讓機器能看、能讀、能聽的三條技術主線。

電腦視覺、自然語言與語音:AI 的三大感官 概念插圖
概念示意插圖(AI 生成,僅作輔助理解)
研究  ·  約 12 分鐘  ·  應用CVNLP多模態研究

從專用任務到共享骨架

讓 AI 在真實世界有用,先要讓它能處理感官資料。歷史上 CV、NLP、語音各自發展出專用方法;但 Transformer 與大規模預訓練正讓三者收斂到共享的骨架與表徵。理解每條主線的任務形式化,才能判斷一個應用的難度與可靠度。

電腦視覺:從分類到稠密預測

CV 任務依輸出粒度排成光譜:

  • 影像分類:對整張圖輸出類別 $\arg\max_c p(c\mid x)$。
  • 物件偵測:同時輸出每個物件的類別與邊界框 $(x,y,w,h)$,評估用 mAP(平均精度)。
  • 語意/實例分割:對每個像素分類,是稠密預測。
  • 人臉/姿態、深度估計等。

架構從 CNN(ResNet、YOLO)演進到 Vision Transformer:把影像切成 patch 當 token 餵進 Transformer,在大規模資料下超越 CNN。應用遍及醫療影像、自駕、瑕疵檢測。

自然語言處理:被 LLM 統一的領域

NLP 過去為翻譯、摘要、情緒分析、命名實體辨識各設專用模型;如今大型語言模型把它們統一成單一的「文字進、文字出」介面——以提示指定任務即可(見〈提示工程〉)。理解 NLP 的演進(詞袋 → word2vec → BERT 的雙向編碼 → GPT 的自迴歸生成)有助於看清這場統一的脈絡。

語音:辨識與合成

  • 語音辨識(ASR):把聲學訊號轉文字,是序列到序列問題;Whisper 以大規模弱監督達到跨語言的穩健度。
  • 語音合成(TTS):文字轉自然語音,近年神經式 TTS(含擴散與神經聲碼器)使音質與可仿聲度大幅提升——也帶來語音深偽的風險。

多模態:對齊不同感官的表徵空間

前沿是多模態模型:讓同一系統處理文字、影像、聲音。關鍵技術是跨模態對齊——把不同模態映到同一語意空間CLIP 用對比學習訓練影像編碼器與文字編碼器,使配對的(圖, 文)向量相近、不配對者相遠:

$$ \mathcal{L}=-\log\frac{\exp(\langle z_i^{\text{img}},z_i^{\text{txt}}\rangle/\tau)}{\sum_j \exp(\langle z_i^{\text{img}},z_j^{\text{txt}}\rangle/\tau)} $$

這種對齊讓「用文字搜尋圖」「文字生圖的條件」「圖文問答」成為可能,是當代多模態大模型(可丟圖提問、上傳語音摘要)的基礎。感官的界線正被打通,讓 AI 更接近人類的綜合理解。

深入探討(研究所視角)

三大感官的統一:序列到序列與注意力的譜系

電腦視覺、自然語言與語音在工程上看似分立,但在表徵學習層面已逐步收斂到同一套框架:以自注意力為核心的序列建模。Transformer 的注意力本質上是一個可微的核迴歸(kernel regression),輸出 $\mathrm{Attn}(Q,K,V)=\mathrm{softmax}\!\left(\frac{QK^\top}{\sqrt{d}}\right)V$,其中 $\sqrt{d}$ 縮放避免了高維內積使 softmax 飽和、梯度趨近於零的問題。將影像切成 patch token(ViT)、將語音切成聲學 frame、將文字切成 subword,本質上都是把不同模態投影到共享的 token 序列空間,再由同一種注意力機制處理。這正是 CLIP、Whisper、以及多模態大模型得以對齊跨模態表徵的理論基礎:透過對比學習最小化配對樣本的距離、最大化非配對樣本的距離,等價於最大化互資訊 $I(X;Y)$ 的一個下界(InfoNCE bound)。

複雜度瓶頸與線性化的近似理論

標準注意力對序列長度 $n$ 的時間與記憶體複雜度為 $O(n^2 d)$,這在高解析影像與長語音上成為硬限制。線性注意力以核特徵映射 $\phi(\cdot)$ 改寫為 $\phi(Q)\big(\phi(K)^\top V\big)$,利用結合律把複雜度降為 $O(nd^2)$。其代價是低秩近似誤差:當真實注意力矩陣秩較高時,$\phi$ 的有限維特徵無法無損還原 softmax 核。狀態空間模型(如 S4、Mamba)則改以連續時間線性系統 $\dot{h}(t)=Ah(t)+Bx(t)$ 離散化為遞迴形式,藉由 HiPPO 理論對歷史訊號做最優多項式投影,在長程依賴上兼顧 $O(n)$ 複雜度與選擇性記憶。

開放問題與理論連結

  • 泛化與縮放律:經驗上 loss 隨參數量與資料量呈冪律 $L(N)\propto N^{-\alpha}$,但其指數 $\alpha$ 的理論來源、以及 emergent ability 是否為平滑現象的度量假象,仍是開放爭論。
  • 生成模型的理論統一:擴散模型透過學習 score function $\nabla_x\log p(x)$ 並以 Langevin 動力學或反向 SDE 採樣,已成為影像與語音合成的 SOTA;自回歸 token 模型則直接分解 $p(x)=\prod_t p(x_t\mid x_{<t})$。兩者可在隨機插值(stochastic interpolant)框架下視為連續與離散時間的特例。
  • 語音的時間結構:語音兼具 CV 的連續性與 NLP 的離散符號性,CTC 損失透過對所有對齊路徑邊際化 $p(y\mid x)=\sum_{\pi\in\mathcal{B}^{-1}(y)}p(\pi\mid x)$ 解決輸入輸出長度不對齊,是序列建模中「潛在對齊」這一更廣問題(與 attention、最優傳輸對齊相通)的典型實例。

這些主線最終指向同一個問題:如何在有限算力下,學到對任意模態都成立的、可組合的世界表徵。

接著問 AI 助教

點一下複製提問,到 ClassroomGPT、優學伴(AIDA)或你的 UeduGPTs 頻道貼上,AI 會引用本專區內容回答。

AI 共讀助教正在陪你讀:電腦視覺、自然語言與語音:AI 的三大感官
嗨!我是這篇文章的共讀助教,只根據〈電腦視覺、自然語言與語音:AI 的三大感官〉的內容回答。可以問我「解釋某段」「舉個例子」「出題考我」,或反白文中段落後點下方「解釋選取段落」。