編輯:小鹹魚 好睏
【新智元導讀】英偉達似乎把明年要發的新GPU提前自曝了!一個出現在論文裡的神秘顯示卡GPU-N有著779TFLOPs的FP16效能,是A100的2。5倍。非常接近傳聞中比A100強3倍的下一代Hopper GH100。
近日,在英偉達團隊發表的新論文中提到了一個神秘的顯示卡:GPU-N。
據網友推測,這很可能就是下一代Hopper GH100晶片的內部代號。
https://dl。acm。org/doi/10。1145/3484505
英偉達在這篇「GPU Domain Specialization via Composable On-Package Architecture」(透過可組合式封裝架構實現GPU領域的專業化)的論文中,談到了下一代GPU設計。
研究人員認為,當前要想提升深度學習效能,最實用的解決方案應該是最大限度地提高低精度矩陣計算的吞吐量。
簡單來說,GPU-N有134個SM單元(A100中為104個SM);8576個CUDA核心(比A100多24%);60MB的二級快取(比A100多50%);2。687TB/秒的DRAM頻寬(可擴充套件至6。3TB/秒);高達100GB的HBM2e(透過COPA實現可擴充套件到233GB),以及6144位記憶體匯流排。
全新COPA-GPU架構
「GPU-N」採用了一種叫COPA的設計。
目前,當GPU以擴大其低精度矩陣計算吞吐量的方式來提高深度學習(DL)效能時,吞吐量和儲存系統能力之間的平衡會被打破。
英偉達團隊最終得出一個結論,基於FP32(或更大)的HPC和基於FP16(或更小)的DL,兩者的工作負載是不一樣的。那麼,執行兩種任務的GPU架構也不應該完全一樣。
而如果非得要求GPU滿足不同的架構要求,去做一個融合設計,會導致任何一個應用領域的配置都不是最優的。
因此,可以給每個領域提供專用的GPU產品的可組合的(COPA-GPU)架構是解決這些不同需求的最實用的方案。
COPA-GPU利用多晶片模組分解,可以做到最大限度地支援GPU模組複用,以及每個應用領域的記憶體系統定製化。
英偉達表示,COPA-GPU可以透過對基線GPU架構進行模組化增強,使其具有高達4倍的片外頻寬、32倍的包內快取和2。3倍的DRAM頻寬和容量,同時支援面向HPC的縮減設計和麵向DL的專業化產品。
這項工作探索了實現可組合的GPU所必需的微架構設計,並評估了可組合架構為HPC、DL訓練和DL推理提供的效能增益。
實驗表明,與一個融合的GPU設計相比,一個對DL任務進行過最佳化的COPA-GPU具有16倍大的快取容量和1。6倍高的DRAM頻寬。
每個GPU的訓練和推理效能分別提高了31%和35%,並在擴充套件的訓練場景中減少了50%的GPU使用數量。
從紙面上的效能來看,「GPU-N」的時鐘頻率為1。4GHz(與A100的理論值相同),可以達到24。2 TFLOPs的FP32(是A100的1。24倍)和779 TFLOPs的FP16(是A100的2。5倍)。
與AMD的MI200相比,GPU-N的FP32的效能還不到一半(95。7 TFLOPs vs 24。2 TFLOPs),但GPU-N的FP16的效能卻高出2。15倍(383TFLOPs vs 779TFLOPs)。
規格
NVIDIA V100
NVIDIA A100
GPU-N
SMs
80
108
134
GPU頻率(GHz)
1。4
1。4
1。4
FP32(TFLOPS)
15。7
19。5
24。2
FP16(TFLOPS)
125
312
779
L2快取(MB)
6
40
60
DRAM頻寬(GB/s)
900
1,555
2,687
DRAM容量(GB)
16
40
100
根據以往的資訊可以推斷,NVIDIA的H100加速器將基於MCM解決方案,並且會基於臺積電的5nm工藝。
雖然不知道每個SM中的核心數量,但如果依然保持64個的話,那麼最終就會有18,432個核心,比GA100多2。25倍。
Hopper還可以利用更多的FP64、FP16和Tensor核心,這將極大地提高效能。
GH100很可能會在每個GPU模組上啟用144個SM單元中的134個。但是,如果不使用GPU稀疏性,英偉達不太可能達到與MI200相同的FP32或FP64 Flops。
此外,論文中還談到了兩種基於下一代架構的領域專用COPA-GPU,一種用於HPC,一種用於DL領域。
HPC變體採用的是非常標準的設計方案,包括MCM GPU設計和各自的HBM/MC+HBM(IO)晶片,但DL變體真的是一個很特殊的設計。
DL變體在一個完全獨立的晶片上安裝了一個巨大的快取,與GPU模組相互連線。具有高達960/1920 MB的LLC(Last-Level-Cache),HBM2e DRAM容量也高達233GB,頻寬高達6。3TB/s。
但是網友表示,英偉達似乎已經決定將重點放在DL效能上,因為FP32和FP64(HPC)效能的增長僅僅是來源於SM數量的增加。
這很可能在最後達不到傳聞中的3倍效能。
鑑於英偉達已經發布了相關的資訊,Hopper顯示卡很可能會在2022年GTC的大會上亮相。
規格預測
Tesla V100 (SXM2)
NVIDIA A100 (SXM4)
NVIDIA H100 (SMX4?)
GPU
GV100 (Volta)
GA100 (Ampere)
GH100 (Hopper)
製程
12nm
7nm
5nm
電晶體
21。1億
54。2億
TBD
晶片尺寸
815平方毫米
826平方毫米
TBD
SMs
80
108
134
TPCs
40
54
TBD
FP32 CUDA核心
5120
6912
8576
FP64 CUDA核心
2560
3456
4288
張量核心
640
432
TBD
紋理單元
320
432
TBD
頻率
1530 MHz
1410 MHz
~1400 MHz
TOPs(DNN/AI)
125 TOPs
1248 TOPs
TBD
FP16計算
30。4 TFLOPs
312 TFLOPs
779 TFLOPs
FP32計算
15。7 TFLOPs
19。4 TFLOPs
24。2 TFLOPs
FP64計算
7。80 TFLOPs
19。5 TFLOPs
24。2 TFLOPs
視訊記憶體型別
4096-bit HBM2
6144-bit HBM2e
6144-bit HBM2e
視訊記憶體容量
16 GB @ 900 GB/s
最高 40 GB @ 1。6 TB/s
最高 80 GB @ 1。6 TB/s
最高 100 GB @ 2。687 TB/s
L2快取
6144 KB
40960 KB
81920 KB
TDP
300W
400W
~450-500W
參考資料:
https://wccftech。com/mysterious-nvidia-gpu-n-could-be-next-gen-hopper-gh100-in-disguise-with-134-sms-8576-cores-2-68-tb-s-bandwidth-simulated-performance-benchmarks-shown/