NVIDIA Ada Lovelace架構解析：GeForce RTX 40系列性能翻倍的秘辛

NVIDIA GeForce RTX 40 Series Ada Lovelace Architecture

GeForce RTX 40 系列 GPU 正式亮相後，NVIDIA 進一步解釋 Ada Lovelace 架構的特性。

Ada Lovelace 核心架構

NVIDIA GeForce RTX 40 Series Ada Lovelace Architecture

Ada Lovelace 架構的基礎其實很類似前一代的 Ampere 架構，同樣以 SM (Streaming Multiprocessor) 為構成單位，每組 SM 內含 128 個 CUDA Core、1 個 RT Core 和 4 個 Tensor Core。

這 128 個 CUDA Core 和 Ampere 架構一樣，其中一半專責處理 FP32（32 位元浮點數，又稱單精度浮點數）運算，另一半則可依需求，在 INT32（32 位整數）運算和 FP32 運算之間動態切換。

根據 NVIDIA 提供的資料，完整的 Ada Lovelace 架構 AD102 晶片擁有 144 組 SM，這包含多達 18432 個 CUDA Core、144 個第 3 代 RT Core 和 576 個第 4 代 Tensor Core，並且配倍 2 個可處理 AV1 編碼的第 8 代 NVENC 編碼器，整體規模比前代大了不少。

另外在台積電 4nm（TSMC N4）製程的加持下，AD102 晶片的電晶體數量來到 763 億個，且 Boost 時脈可達 2.5 GHz。在同樣功耗下，性能表現可達 Ampere 架構的 2 倍。而且相較於 Ampere 架構大約在 350W 左右就達到效能頂點，Ada Lovelace 架構可一路增加至 450W，還能維持有效的效能成長。

除了規模擴大和時脈提升，Ada Lovelace 架構還有幾項創新功能。

著色器執行重新排序（Shader Excution Reordering, SER）

Shader Excution Reordering in NVIDIA Ada Lovelace Architecture

GPU 以平行處理能力著稱，但程式發出的指令請求並不一定同時送來。再者，遇到光線追蹤的工作負載時，因為有著來自各種方向的光線在不同接觸表面上反彈，導致 GPU 需要因應不同的執行緒來處理不同的著色器，因此是出了名的難以平行處理，效率也相當低下。

透過著色器執行重新排序，把同類型的指令即時編排在一起，再同時發送給 GPU 進行處理，進而提高 GPU 的資源效率，這可讓光線追蹤的效能提升至 2 ~ 3 倍，整體遊戲效能也可提升 25%。

Displaced Micro-Mashes

Displaced Micro-Mashes in NVIDIA Ada Lovelace Architecture

Displaced Micro-Mashes 運用曲面細分（Tessellation）的手法，不需要完整的三維空間座標頂點資料，只需要在大塊的三角形做完簡單的 BVH (Bounding volume hierarchy)，再透過置換貼圖（Displacement Mapping）產生大量多邊形，這有點類似圖片壓縮／解壓縮的概念。

NVIDIA 表示，Displaced Micro-Mashes 可提升 BVH 速度達 10 倍，VRAM 占用率可減少到 20 分之 1。

Opacity Micro-Maps

Opacity Micro-Maps in NVIDIA Ada Lovelace Architecture

Opacity Micro-Maps 則是在第 3 代 RT Core 新增半透明的定義。以往 Ampere 架構遇到像是樹葉間隙或霧氣等複雜的場景，會把工作丟回 Streaming Multiprocessor 處理，但效率低下。現在 Ada Lovelace 架構這層定義後，就能有效運用第 3 代 RT Core 加速處理。

DLSS 3

NVIDIA DLSS 3

前日的報導已大致講明 DLSS 3 的原理特性，這邊再稍微補充幾點。

與過往 DLSS 2 以前相比，DLSS 3 新增的特色機制就是運用類似「內插補幀」的手法，在原生兩張畫格之間，產生新的畫格。而原有的 DLSS 機制也可在較低的原生解析度，以 Super Resolution 的方式擴增成 4 倍（長寬各 2 倍相乘）解析度像素。

因此，在這兩種機制的同時作用下，DLSS 3 總共可運用傳統原生渲染顯示的像素，產生額外 7 倍的像素內容。這代表執行 DLSS 3 時，其中 8 分之 7 的像素資料是透過 AI 生成的。

NVIDIA DLSS 3

從表格中可以看到，DLSS 3 包含 GeForce GTX 900 系列以後就能支援的 NVIDIA Reflex 技術、GeForce RTX 20 系列開始支援的 DLSS Super Resolution 技術，以及 GeForce RTX 40 系列獨有的 DLSS Frame Generation 技術。

對於遊戲開發者來說，DLSS 2 要升級到 DLSS 3 其實相當簡單，引擎資料只要多提供 Reflex Marker 即可，這也可促進更已有 DLSS 2 的 AAA 遊戲加速導入 NVIDIA Reflex 低延遲技術。