GTC 24：Blackwell架构详解！看懂B100、B200、GB200、GB200 NVL72成员的纠结瓜葛

身为目前最强的AI加速运算单元，Blackwell GPU不但具有强悍的性能，还可通过串联多组GPU方式构建“超大型GPU”，带来更高的总体性能与吞吐量。

NVIDIA推出了多种Blackwell GPU组态，包含集成8组GPU的HGX形式超级计算机，以及集成2组GPU搭配1组Grace CPU的GB200运算节点，而它们又可以彼此串联成为更大型的运算集群。

NVIDIA在GTC大会上主要推广的型号为集成2组Blackwell GPU与1组Grace CPU的GB200 Superchip，NVIDIA推出的GB200 Superchip运算节点（Compute Node）则是将2组GB200 Superchip安置于1U高度的服务器，并采用水冷散热方案，能让单组GB200 Superchip的TDP达到2700W，完全解放性能表现。

此外NVIDIA也会推出采用SXG界面的B200与B100等GPU，且都能够以8组GPU组成HGX B200或HGX B100服务器，2者主要的差异在于B200的TDP最高可达1000W，而B100仅为800W。

NVIDIA超大规模与高性能计算副总裁暨宏观经济理Ian Buck也在媒体访谈中补充说明，若将B200安置于服务器并搭配水冷散热方案，则可将TDP上调至1200W，进一步提高运算性能。

另一方面，在散热与供电许可的范围下，B200与B100 GPU能够直接与现有H100 HGX或兼容服务器进行GPU替换（Drop-in Replace），提供更大的升级弹性并节省升级费用。

（若下方表格无法完整显示，请点击我看图片版）

Blackwell GPU的实体图片，更多详细介绍可看笔者的前篇报道。

GB200 Superchip集成2组Blackwell GPU与1组Grace CPU。

GB200 Superchip的实体图片，上方为2组Blackwell GPU，中央则为Grace CPU与LPDDR5x内存。

每组Blackwell GPU内置容量为384 GB的HBM3e高带宽内存。

Grace CPU则在外部配置最大480 GB LPDDR5X内存。

GB200 Superchip运算节点集成2组GB200 Superchip，搭配水冷散热方案，安置于1U高度的服务器。（左方为去除水冷头的情况）

此外客户也可以选则集成8组SXG界面Blackwell GPU的HGX B200或HGX B100服务器。

Blackwell GPU的另一大创新功能，就是能够通过NVLink串联最多576组Blackwell GPU，让整个集群犹如组成单一超大GPU，达到扩大运算性能、共享内存、执行规模更大模型的能力。

而NVIDIA也推出了GB200 NVL72服务器，它的机柜（Rack）具有18组GB200 Superchip运算节点以及9组NVLink交换机（每组交换机具有2组NVLink交换机芯片所），能在由72组GPU组成的NVL72域名集群中，以130 TB/s的带宽交换数据。而跨多台机柜的GPU数据则会通过InfiniBand网络传输。

相对于Blackwell GPU芯片内部的2组裸晶通过带宽高达10 TB/s的NV-HBI（NVIDIA High-Bandwidth Interface）芯片对芯片互联（Chip-to-Chip Interconnection）相连，多颗GPU之间则是通过第5代NVLink相连。它采用18信道（Link）的高速差分信号对（High-Speed Differential Pair），能够提供总共高达1.8 TB/s的双向带宽（即单向为900 GB/s），最高能支持576组GPU相连，远高于前代的256组GPU。

第5代NVLink的频远远高出PCIe Gen 5x16的14倍，其1小时的双向传输量综合约为6.32 PB，大约等同于18年4K电影流媒体的数据量，或是11组Blackwell GPU之间的传数量综合就与整个网际网络相当，对于执行大型AI模型的性能表现扮演重要角色。

（若下方表格无法完整显示，请点击我看图片版）

NVLink交换机芯片能够串联最多576组Blackwell GPU组成单一超大GPU，达到扩大运算性能、共享内存、执行规模更大模型的能力。

NVLink交换机由2组NVLink交换机芯片构成，并提供144组NVLink端子，无阻塞交换刘量答14.4 TB/s，为GB200 NVL72系统提供高带宽和低延迟数据交换能力。

GB200 NVL72机柜具有18组GB200 Superchip运算节点，总共包含72组Blackwell GPU与36组Grace CPU。

GB200 NVL72机柜背面则有称为NVLink Spine（NVLink脊椎）的数据连接缆线，GPU串联在一起。

NVIDIA不但通过CUDA确立了AI运算软件与框架的领先优势，随着Blackwell架构推出的第5代NVLink也支持串联更多GPU，进而提供更庞大的运算能力以及内存总容量，让竞争对手望尘莫及。

举报/反馈

十轮网

12.9万获赞 1.2万粉丝

聚焦、分享有价值内容。

山东寰信网络科技有限公司

关注