NVIDIA 於 GTC 2022(GPU 技術大會)正式發表以美國電腦科學家先驅 Grace Hopper 命名的 NVIDIA Hopper 架構,以及採用該架構的 NVIDIA H100 GPU,導入 TSMC 台積電 4nm (N4) 製程,搭配 HBM3 記憶體,接替兩年前推出的 NVIDIA Ampere 架構。
NVIDIA 資料中心 GPU 系列規格
產品 | 完整 GH100 GPU | NVIDIA H100 SXM5 | NVIDIA H100 PCIe | NVIDIA A100 |
晶片代號 | GH100 | GH100 | GH100 | GA100 |
製程 | TSMC 4nm | TSMC 4nm | TSMC 4nm | TSMC 7nm |
晶圓面積 | 待確認 | 待確認 | 待確認 | 826 mm^2 |
電晶體數量 | 800 億 | 800 億 | 800 億 | 540 億 |
SM 數量 | 144 | 132 | 114 | 108 |
CUDA 核心數 | 18432 | 16896 | 14592 | 6912 |
Tensor 核心數 | 576 | 528 | 456 | 432 |
INT8 Tensor Core 效能 | 待確認 | 2000 TeraFLOPS 稀疏 4000 TeraFLOPS |
1600 TeraFLOPS 稀疏 3200 TeraFLOPS |
624 TeraOPS 稀疏 1248 TeraOPS |
FP8 Tensor Core 效能 | 待確認 | 2000 TeraFLOPS 稀疏 4000 TeraFLOPS |
1600 TeraFLOPS 稀疏 3200 TeraFLOPS |
N/A |
FP16 半精度浮點效能 | 待確認 | 120 TeraFLOPS | 96 TeraFLOPS | 78 TeraFLOPS |
FP16 Tensor Core 效能 | 待確認 | 1000 TeraFLOPS 稀疏 2000 TeraFLOPS |
800 TeraFLOPS 稀疏 1600 TeraFLOPS |
312 TeraFLOPS 稀疏 624 TeraFLOPS |
FP32 單精度浮點效能 | 待確認 | 60 TeraFLOPS | 48 TeraFLOPS | 19.5 TeraFLOPS |
FP32 Tensor Core 效能 | 待確認 | 500 TeraFLOPS 稀疏 1000 TeraFLOPS |
400 TeraFLOPS 稀疏 800 TeraFLOPS |
156 TeraFLOPS 稀疏 312 TeraFLOPS |
FP64 雙精度浮點效能 | 待確認 | 30 TeraFLOPS | 24 TeraFLOPS | 9.7 TeraFLOPS |
FP64 Tensor Core 效能 | 待確認 | 60 TeraFLOPS | 48 TeraFLOPS | 19.5 TeraFLOPS |
Boost 時脈 | 待確認 | 待確認 | 待確認 | 1410 MHz |
記憶體形式 | HBM3 | 80 GB HBM3 | 80 GB HBM2e | 40GB HBM2e |
記憶體介面 | 6144-bit | 5120-bit | 5120-bit | 5120-bit |
等效記憶體速率 | 4.0 GHz | 待確認 | 待確認 | 2430 MHz |
記憶體頻寬 | 3 TB/s | 待確認 | 待確認 | 1134 GB/s |
TDP | 待確認 | 700W | 待確認 | 400W |
封裝形式 | SXM5 / PCIe 5.0 | SXM5 | PCIe 5.0 | SXM4 / PCIe 4.0 |
NVIDIA H100 採用的台積電 4nm 製程,是台積電 5nm 製程的強化版本,在效能、功耗、及密度方面都有所提升。它擁有 800 億個電晶體,是首款支援 PCIe 5.0 及首款使用 HBM3 的 GPU 產品,記憶體頻寬高達每秒 3TB。
根據官方釋出的資料,H100 在半精度、單精度、雙精度浮點等人工智慧常用運算模式,效能可達前代產品 A100 的 3 倍,而在 FP8 甚至可達 A100 的 6 倍。
H100 提供 SXM 和 PCIe 兩種規格。SXM 用於 HGX H100 伺服器主機板上,有 4 路和 8 路配置。PCIe 規格則使用 NVLink 串接兩個 GPU,提供比 PCIe 5.0 還要高出 7 倍的頻寬,但依然能輕鬆安裝於現有的資料中心基礎設施中。
還有一種名為 H100 CNX 的融合加速器,搭配 NVIDIA ConnectX-7 400Gb/s InfiniBand 及 Ethernet SmartNIC,為企業資料中心的多節點 AI 訓練,以及邊緣的 5G 訊號處理等 I/O 密集型應用程式提供突破性的效能。
會中也同步發表第 4 代 DGX 系統:NVIDIA DGX H100 超級電腦,搭載 8 組 NVIDIA H100 GPU,可在全新 FP8 精度下提供 32 petaflops 的 AI 運算表現,這個規模足以滿足大型語言模型、推薦系統、醫療研究及氣候科學的大規模運算需求。
DGX H100 內部透過第 4 代 NVLink 技術連接,GPU 之間的連接速度可達每秒 900GB。而一台外部 NVLink 交換器甚至能夠串連多達 32 個 DGX H100 節點,組合成 NVIDIA DGX SuperPOD 超級電腦。