NVIDIA 於 GTC 2024(GPU 技術大會)正式公開次世代架構 GPU:Blackwell,AI 人工智慧性能可達前代 H100 / H200 GPU 的 5 倍之譜。
架構命名 Blackwell 是紀念美國國家科學院首位黑人院士 David Harold Blackwell,也是加州大學柏克萊分校首位黑人終身教員。
首款 Blackwell 架構 GPU 是 NVIDIA B200,採用台積電 TSMC 4NP 製程節點,運用多晶片封裝技術將兩塊 Blackwell GPU 晶片封裝在單一巨型晶片上,每個 GPU 內含 1040 億個電晶體,因此一塊 NVIDIA B200 晶片將內含 2080 億個電晶體。
NVIDIA B200 配置 160 組 SM (Streaming Multiprocessors),內含總計 20480 個 CUDA 核心。每顆晶片配置 8 塊 HBM 記憶體封裝,提供容量達 192 GB 的 HBM3e 記憶體,介面寬度來到 8192-bit,總頻寬可達 8 TB/s。
B200 能夠以 SMX 模組形式啟用第 5 代 NVLINK,或是以 PCIe 形式支援 PCIe 6.0,瞬間最大功耗可達 700W。
B200 初步的性能指標如下:
- 20 PetaFLOPS FP8 (Hopper 的 2.5 倍)
- 20 PetaFLOPS FP6 (Hopper 的 2.5 倍)
- 40 PetaFLOPS FP4 (Hopper 的 5 倍)
- HBM 容量 7400 億條參數 (Hopper 的 6 倍)
- HBM 頻寬 每秒 34 億條參數 (Hopper 的 5 倍)
- 7.2 TB/s NVLink 頻寬 (Hopper 的 4 倍)
2 顆 NVIDIA B200 GPU 能夠與 NVIDIA 現有的 Grace CPU 組合成 GB200 Superchip 超級晶片,GB200 超級晶片還能再透過 NVLink 於單一機架內串接總計 18 組單一 GB200 運算節點,構成 GB200 NVL36(每組 GB200 有 2 顆 NVIDIA B200 GPU),或是串接 18 組雙 GB200 運算節點,構成 GB200 NVL72。
最新的第 5 代 NVLink 能夠在單一網域串接多達 576 個 B200 GPU,也就是 8 組 GB200 NVL72 機櫃,成為 DGX GB200 SuperPOD 系統,這些機櫃支援液冷系統,冷卻耗能只需要原本的一半。
最後是 GB200 的資料中心陣列,最多可以把 32000 顆 B200 GPU 串接成單一 GPU,提供高達 645 ExaFLPOS 的 AI 性能。