3 月 22 日晚,备受瞩目的英伟达 GTC 开发者大会,终于开幕了!
虽然没有了那个熟悉的厨房,但这次的阵仗反而更加豪华。
英伟达用 Omniverse 把新总部从内到外渲染了一遍!

800 亿个晶体管的 Hopper H100

随着拔地而起的平台,英伟达推出了为超算设计的最新 AI 显卡 Hopper H100。
相比于「只有」540 亿个晶体管的前辈 A100,英伟达在 H100 中装入了 800 亿个晶体管,并采用了定制的台积电 4 纳米工艺。
也就是说,H100 将具有更好的功率 / 性能特性,并在密度方面有一定程度上的改进。
在算力上,H100 的 FP16、TF32 以及 FP64 性能都是 A100 的 3 倍,分别为 2000 TFLOPS、1000 TFLOPS 和 60 TFLOPS。
此外,H100 还增加了对 FP8 支持,算力高达 4000 TFLOPS,比 A100 快 6 倍。毕竟在 这方面,后者由于缺乏原生 FP8 支持而不得不依赖 FP16。
内存方面,H100 也将默认支持带宽为 3TB/s 的 HBM3,比 A100 的 HBM2E 提升 1.5 倍。
H100 支持的第四代 NVLink 接口可以提供高达 128GB/s 的带宽,是 A100 的 1.5 倍;而在 PCIe 5.0 下也可以达到 128GB/s 的速度,是 PCIe 4.0 的 2 倍。
同时,H100 的 SXM 版本将 TDP 增加到了 700W,而 A100 为 400W。而 75% 的功率提升,通常来说可以预计获得 2 到 3 倍的性能。
为了优化性能,Nvidia 还推出了一个新的 Transformer Engine,将根据工作负载在 FP8 和 FP16 格式之间自动切换。
Hopper 架构全新的 DPX 指令,将为动态规划的计算速度带来高达 40 倍的提升。
在 AI 训练中,H100 可以提供高达 9 倍的吞吐量。以 Megatron 530B 为基准,则可以提供 16 倍至 30 倍的推理性能。在 3D FFT(快速傅里叶变换)和基因组测序等 HPC 应用中,则可提升 6-7 倍。

DGX 服务器系统

第四代英伟达 DGX 服务器系统,将世界上第一个采用 H100 显卡构建的 AI 服务器平台。
DGX H100 服务器系统可提供满足大型语言模型、推荐系统、医疗保健研究和气候科学的海量计算需求所需的规模。
其中,每个服务器系统包含 8 个 H100 显卡,通过 NVLink 链接为单个整体,晶体管总计 6400 亿个。
在 FP8 精度下,DGX H100 可以提供 32 PFLOPS 的性能,比上一代高 6 倍。
此外,每个 DGX H100 系统还包括两个 NVIDIA BlueField-3 DPU,用于卸载、加速和隔离网络、存储和安全服务。
8 个 NVIDIA ConnectX-7 Quantum-2 InfiniBand 网络适配器提供每秒 400 Gb 的吞吐量来连接计算和存储模块 —— 速度是上一代系统的两倍。
第四代 NVLink 与 NVSwitch 相结合,可在每个 DGX H100 系统中的每个 GPU 之间提供每秒 900 GB 的连接,是上一代的 1.5 倍。
而最新的 DGX SuperPOD 架构则可连接多达 32 个节点、总共 256 个 H100 显卡。
DGX SuperPOD 可提供 1 EFLOPS 的 FP8 性能,同样也是前代的 6 倍。

世界上最快的 AI 超算

由 576 个 DGX H100 服务器系统和 4608 个 DGX H100 显卡组成的「Eos」超级计算机预计将提供 18.4 EFLOPS 的 AI 计算性能,比目前世界上最快的超算 —— 日本的「富岳」快 4 倍。
对于传统的科学计算,Eos 有望提供 275 PFLOPS 的性能。

Transformer Engine

作为新 Hopper 架构的一部分,将显著提高 AI 的性能,大型模型的训练可以在数天甚至数小时内完成。
传统的神经网络模型在训练过程中采用的精度是固定的,因此也难以将 FP8 应用在整个模型之中。
而 Transformer Engine 则可以在 FP16 和 FP8 之间逐层训练,并利用英伟达提供的启发式方法来选择所需的最低精度。
此外,Transformer Engine 可以用 2 倍于 FP16 的速度打包和处理 FP8 数据,于是模型的每一层可以用 FP8 处理的数据都可以提升 2 倍的速度。

Grace CPU 超级芯片

除了显卡,英伟达今天还推出了其首款基于 Arm Neoverse 架构的处理器 ——Grace CPU 超级芯片。
它基于此前发布的 Grace Hopper CPU+GPU 设计,只不过把显卡换成了 CPU。
据英伟达实验室估计,在使用同类编译器时,Grace CPU 超级芯片性能可以提升 1.5 倍以上。
在技术规格上,可以概括为:
  • 2 个 72 核芯片,高达 144 个 Arm v9 CPU 核心
  • 采用 ECC 技术的新一代 LPDDR5x 内存,总带宽为 1TB/s
  • SPECrate 2017_int_base 得分预计超过 740
  • 900GB/s 一致性接口,比 PCIe 5.0 快 7 倍
  • 封装密度比 DIMM 解决方案提高了 2 倍
  • 每瓦性能 2 倍于当今领先的 CPU
超级芯片中的两个 CPU 通过英伟达最新的 NVLink「芯片到芯片」(C2C) 接口进行通信。
这种「裸晶到裸晶」和「芯片到芯片」的互连支持低延迟内存一致性,允许连接的设备同时在同一个内存池上工作。
Grace CPU 超级芯片拥有更先进的能效和内存带宽,其创新的内存子系统由带有 ECC 的 LPDDR5x 内存组成。
LPDDR5x 可以提供两倍于传统 DDR5 的带宽,同时还能使 CPU 加内存的功耗显著降低至 500 瓦。
相比之下,AMD 的芯片在基准测试中的结果从 382 到 424 不等,且每个芯片的功耗最高可达 280W(还不包括内存)。
此外,Grace CPU 超级芯片与 NVIDIA ConnectX-7 NIC 一起提供了配置到服务器中的灵活性,可作为独立的纯 CPU 系统或作为具有 1 个、2 个、4 个或 8 个基于 Hopper 显卡的加速服务器。

安培架构再添新品

今天,英伟达为笔记本电脑和台式机提供了七种基于 Ampere 架构的显卡 ——RTX A500、RTX A1000、RTX A2000 8GB、RTX A3000 12GB、RTX A4500 和 RTX A5500。
新的 RTX A5500 台式机显卡可实现出色的渲染、AI、图形和计算性能。其光线追踪渲染比上一代快 2 倍,其运动模糊渲染性能最高可提高 9 倍。
第二代 RT 核心:吞吐量高达第一代的 2 倍,能够同时运行光线追踪、着色和去噪任务。
第三代 Tensor Cores:训练吞吐量是前一代的 12 倍,支持新的 TF32 和 Bfloat16 数据格式。
CUDA 核心。比上一代的单精度浮点吞吐量高达 3 倍。
高达 48GB 的 GPU 内存:RTX A5500 具有 24GB 的 GDDR6 内存,带有 ECC(纠错码)。使用 NVLink 连接两个 GPU,RTX A5500 的内存可扩展至 48GB。
虚拟化:RTX A5500 支持 NVIDIA RTX 虚拟工作站(vWS)软件,用于多个高性能虚拟工作站实例,使远程用户能够共享资源,推动高端设计、AI 和计算工作负载。
PCIe 4.0:带宽是上一代的 2 倍,加快了数据密集型任务的数据传输,如 AI、数据科学和创建 3D 模型。

游戏开发者也有元宇宙了

已经在元宇宙拥有一席之地的 Omniverse 再次得到了加强。
本次大会上,英伟达发布了 NVIDIA Omniverse 的全新功能,使开发者能够更轻松地共享资产、对资产库进行分类、开展协作,并在全新游戏开发流程中部署 AI 来为角色制作面部表情的动画。
借助 NVIDIA Omniverse 实时设计协作和模拟平台,游戏开发者可以使用支持 AI 和 NVIDIA RTX 的工具,轻松构建自定义工具,以简化、加速和改进其开发工作流。其组件包括:
  • Omniverse Audio2Face,一款由 NVIDIA AI 驱动的应用,使角色艺术家通过音频文件生成高质量的面部动画。Audio2Face 支持完整的面部动画,艺术家们还能控制表演的情感。有了 Audio2Face,游戏开发者可以快速、轻松地为其游戏角色添加逼真的表情,促进玩家和游戏角色之间更强的情感连接,增强沉浸感。
  • Omniverse Nucleus Cloud 现已开放抢先体验版,可实现 Omniverse 场景的一键式简单共享,无需在本地或私有云中部署 Nucleus。通过 Nucleus Cloud,游戏开发者可轻松地在内、外部开发团队之间实时分享和协作 3D 资产。
  • Omniverse DeepSearch 是一项 AI 服务,现在可供 Omniverse 企业用户使用,它允许游戏开发者使用自然语言输入和图像来即时搜索其整个未标记的 3D 资产、物体对象和角色目录。
  • Omniverse Connectors 实现第三方设计工具和 Omniverse 之间的「实时同步」协作工作流的插件。全新虚幻引擎 5 Omniverse Connector 允许游戏艺术家在游戏引擎和 Omniverse 之间交换 USD 和材料定义语言数据。

将数据中心转变为「AI 工厂」


不管是 Hopper 显卡架构还是 AI 加速软件,抑或是强大的数据中心系统。
所有的这些都将由 Omniverse 汇集起来,从而更好地模拟和理解现实世界,并作为新型机器人的试验场,即所谓「下一波 AI」。
由于加速计算技术的发展,AI 的进展惊人,人工智能已经从根本上改变了软件可以做什么,以及如何开发软件。
老黄表示,Transformer 摆脱了对人类标记数据的需求,使自监督学习成为可能,而人工智能一跃以空前的速度发展。
用于语言理解的谷歌 BERT,用于药物发现的英伟达 MegaMolBART,以及 DeepMind AlphaFold2 都是 Transformer 带来的突破。
英伟达的 AI 平台也得到了重大的更新,包括 Triton 推理服务器、用于训练大型语言模型的 NeMo Megatron 0.9 框架,以及用于音频和视频质量增强的 Maxine 框架。
「我们将在未来十年再争取实现百万倍的算力提升,」老黄在结束他的演讲时说,「我迫不及待地想看看下一个百万倍会带来什么了。」

参考资料:

https://www.nvidia.cn/gtc-global/keynote/

举报/反馈

湃岸经奇

321获赞 86粉丝
文山拾贝 墨海荡舟 无奇不成书
关注
0
0
收藏
分享