英偉達神秘「變形」GPU曝光!5nm工藝,兩種形態隨心變

編輯:小鹹魚 好睏

【新智元導讀】英偉達似乎把明年要發的新GPU提前自曝了!一個出現在論文裡的神秘顯示卡GPU-N有著779TFLOPs的FP16效能,是A100的2。5倍。非常接近傳聞中比A100強3倍的下一代Hopper GH100。

近日,在英偉達團隊發表的新論文中提到了一個神秘的顯示卡:GPU-N。

據網友推測,這很可能就是下一代Hopper GH100晶片的內部代號。

英偉達神秘「變形」GPU曝光!5nm工藝,兩種形態隨心變

https://dl。acm。org/doi/10。1145/3484505

英偉達在這篇「GPU Domain Specialization via Composable On-Package Architecture」(透過可組合式封裝架構實現GPU領域的專業化)的論文中,談到了下一代GPU設計。

研究人員認為,當前要想提升深度學習效能,最實用的解決方案應該是最大限度地提高低精度矩陣計算的吞吐量。

簡單來說,GPU-N有134個SM單元(A100中為104個SM);8576個CUDA核心(比A100多24%);60MB的二級快取(比A100多50%);2。687TB/秒的DRAM頻寬(可擴充套件至6。3TB/秒);高達100GB的HBM2e(透過COPA實現可擴充套件到233GB),以及6144位記憶體匯流排。

全新COPA-GPU架構

「GPU-N」採用了一種叫COPA的設計。

目前,當GPU以擴大其低精度矩陣計算吞吐量的方式來提高深度學習(DL)效能時,吞吐量和儲存系統能力之間的平衡會被打破。

英偉達團隊最終得出一個結論,基於FP32(或更大)的HPC和基於FP16(或更小)的DL,兩者的工作負載是不一樣的。那麼,執行兩種任務的GPU架構也不應該完全一樣。

英偉達神秘「變形」GPU曝光!5nm工藝,兩種形態隨心變

而如果非得要求GPU滿足不同的架構要求,去做一個融合設計,會導致任何一個應用領域的配置都不是最優的。

因此,可以給每個領域提供專用的GPU產品的可組合的(COPA-GPU)架構是解決這些不同需求的最實用的方案。

COPA-GPU利用多晶片模組分解,可以做到最大限度地支援GPU模組複用,以及每個應用領域的記憶體系統定製化。

英偉達神秘「變形」GPU曝光!5nm工藝,兩種形態隨心變

英偉達表示,COPA-GPU可以透過對基線GPU架構進行模組化增強,使其具有高達4倍的片外頻寬、32倍的包內快取和2。3倍的DRAM頻寬和容量,同時支援面向HPC的縮減設計和麵向DL的專業化產品。

這項工作探索了實現可組合的GPU所必需的微架構設計,並評估了可組合架構為HPC、DL訓練和DL推理提供的效能增益。

實驗表明,與一個融合的GPU設計相比,一個對DL任務進行過最佳化的COPA-GPU具有16倍大的快取容量和1。6倍高的DRAM頻寬。

每個GPU的訓練和推理效能分別提高了31%和35%,並在擴充套件的訓練場景中減少了50%的GPU使用數量。

英偉達神秘「變形」GPU曝光!5nm工藝,兩種形態隨心變

從紙面上的效能來看,「GPU-N」的時鐘頻率為1。4GHz(與A100的理論值相同),可以達到24。2 TFLOPs的FP32(是A100的1。24倍)和779 TFLOPs的FP16(是A100的2。5倍)。

與AMD的MI200相比,GPU-N的FP32的效能還不到一半(95。7 TFLOPs vs 24。2 TFLOPs),但GPU-N的FP16的效能卻高出2。15倍(383TFLOPs vs 779TFLOPs)。

規格

NVIDIA V100

NVIDIA A100

GPU-N

SMs

80

108

134

GPU頻率(GHz)

1。4

1。4

1。4

FP32(TFLOPS)

15。7

19。5

24。2

FP16(TFLOPS)

125

312

779

L2快取(MB)

6

40

60

DRAM頻寬(GB/s)

900

1,555

2,687

DRAM容量(GB)

16

40

100

根據以往的資訊可以推斷,NVIDIA的H100加速器將基於MCM解決方案,並且會基於臺積電的5nm工藝。

雖然不知道每個SM中的核心數量,但如果依然保持64個的話,那麼最終就會有18,432個核心,比GA100多2。25倍。

Hopper還可以利用更多的FP64、FP16和Tensor核心,這將極大地提高效能。

英偉達神秘「變形」GPU曝光!5nm工藝,兩種形態隨心變

GH100很可能會在每個GPU模組上啟用144個SM單元中的134個。但是,如果不使用GPU稀疏性,英偉達不太可能達到與MI200相同的FP32或FP64 Flops。

此外,論文中還談到了兩種基於下一代架構的領域專用COPA-GPU,一種用於HPC,一種用於DL領域。

HPC變體採用的是非常標準的設計方案,包括MCM GPU設計和各自的HBM/MC+HBM(IO)晶片,但DL變體真的是一個很特殊的設計。

DL變體在一個完全獨立的晶片上安裝了一個巨大的快取,與GPU模組相互連線。具有高達960/1920 MB的LLC(Last-Level-Cache),HBM2e DRAM容量也高達233GB,頻寬高達6。3TB/s。

但是網友表示,英偉達似乎已經決定將重點放在DL效能上,因為FP32和FP64(HPC)效能的增長僅僅是來源於SM數量的增加。

這很可能在最後達不到傳聞中的3倍效能。

鑑於英偉達已經發布了相關的資訊,Hopper顯示卡很可能會在2022年GTC的大會上亮相。

規格預測

Tesla V100 (SXM2)

NVIDIA A100 (SXM4)

NVIDIA H100 (SMX4?)

GPU

GV100 (Volta)

GA100 (Ampere)

GH100 (Hopper)

製程

12nm

7nm

5nm

電晶體

21。1億

54。2億

TBD

晶片尺寸

815平方毫米

826平方毫米

TBD

SMs

80

108

134

TPCs

40

54

TBD

FP32 CUDA核心

5120

6912

8576

FP64 CUDA核心

2560

3456

4288

張量核心

640

432

TBD

紋理單元

320

432

TBD

頻率

1530 MHz

1410 MHz

~1400 MHz

TOPs(DNN/AI)

125 TOPs

1248 TOPs

TBD

FP16計算

30。4 TFLOPs

312 TFLOPs

779 TFLOPs

FP32計算

15。7 TFLOPs

19。4 TFLOPs

24。2 TFLOPs

FP64計算

7。80 TFLOPs

19。5 TFLOPs

24。2 TFLOPs

視訊記憶體型別

4096-bit HBM2

6144-bit HBM2e

6144-bit HBM2e

視訊記憶體容量

16 GB @ 900 GB/s

最高 40 GB @ 1。6 TB/s

最高 80 GB @ 1。6 TB/s

最高 100 GB @ 2。687 TB/s

L2快取

6144 KB

40960 KB

81920 KB

TDP

300W

400W

~450-500W

參考資料:

https://wccftech。com/mysterious-nvidia-gpu-n-could-be-next-gen-hopper-gh100-in-disguise-with-134-sms-8576-cores-2-68-tb-s-bandwidth-simulated-performance-benchmarks-shown/