不久前的GTC 2022“GeForce Beyond”特别活动上,NVIDIA正式发布了三款GeForce RTX 40系列显卡,而新一代Ada Lovelace架构也随之正式亮相,这是第三代的RTX架构,其最大的完整核心具有恐怖的760亿个晶体管和超过18000个CUDA核心,相比上一代Ampere架构的283亿晶体管和10752个CUDA核心有巨大的提升,那么新一代Ada Lovelace架构与前代相比究竟有哪些创新呢?本文就带各位一起仔细看看这个NVIDIA最新一代图形架构。
Ada Lovelace架构的创新大体上可以分为三个板块,分别是带来了新的全景光线追踪、着色器执行重排序(SER)和DLSS 3,这是一个大致的认识,而这些还可以往下细分,比如新的全景光线追踪的实现就包含有新的RT核心、更多的着色器以及新的Tensor核心,而DLSS 3更是一系列技术的结合。
全景光线追踪,从名字就能看出来它对于光线追踪的计算要求有了巨大的提高,拿《赛博朋克2077》来说,NVIDIA发布会演示的《赛博朋克2077》是将要发布的最新版,添加了“全极致光线追踪”这一究极画质模式,大家可以欣赏一下这个画质下的画面魅力。
RTX OFFRTX OFFRTX ONRTX ON
对比的话会更加明显,以《逆水寒》为例可以看到现在的全景光线追踪相对比没有光线追踪的画面观感,明显让游戏体验上升好几个档次。
RTX OFFRTX OFFRTX ONRTX ON
全景光线追踪通过 NVIDIA RTX 直接照明 (RTXDI)、像素完美的阴影、令人惊叹的反射和之前看不到的水面折射,在《逆水寒》中提供令人难以置信、如照片般逼真的细节,昼夜都有自然的全局光照,由 NVIDIA 基于储层的时空重要性重采样全局光照 (ReSTIR GI) 提供,光线准确无误。
RTX OFFRTX OFFRTX ONRTX ON
表面和纹理拥有令人惊叹的基于物理效果的细节,可确保这些效果能够以自然、逼真的方式交互,从而增强画质和沉浸感。为了对光线追踪结果进行降噪,《逆水寒》利用了 NVIDIA Real Time Denoiser (NRD)。
而要实现这样的画面表现,这个画质模式下游戏画面的每个像素会执行约635次光线追踪计算来确定光照,4年前的《战地5》首次引入实时光线追踪技术只会对画面的每个像素执行约39次光线追踪计算,等于说现在可以实现的游戏画面相比4年前提高了16倍的计算要求。
理论上要实现这样的计算要求,在技术没有革新的情况下,GPU的晶体管数目也需要增长16倍才能满足需求,这显然不现实,事实上,芯片的晶体管数目每两年能增加一倍就已经很不错了。
而Ada Lovelace架构的技术革新就解决了这个问题,在晶体管数目仅增加约4倍的情况下,却可以输出计算需求量远超4倍的游戏画面。那么它是怎么做到的呢?这我们就要深入到其架构核心图里面去深究了。
我们还是先从完整的核心图来看,它仍然沿用了从NVIDIA Pascal架构开始定下的GPC-TPC-SM层级架构,这也让我们可以很明显的看到其规模相比上一代显著增大了,GPC从Ampere的最大7个猛增到12个,增幅为71.4%,就算其他部分没有技术革新,仅仅这个暴涨的GPC规模就已经能带来很强的性能提升了。
除此之外,与上代的架构核心图对比的话,会很明显的发现二级缓存部分的变化可以说是最大、最明显的,Ada Lovelace的二级缓存规模暴涨——是上一代的16倍。另外一个从完整核心图上也很容易看到的区别就是Ada Lovelace没有了NVLink总线模块,这个设计方向其实之前早有痕迹。
深入到GPC里面,会发现这一代仍然是每组GPC包含6组TPC、一个独立光栅引擎、两个ROP分区(每个包含8个ROP单元),而每组TPC又包含2组SM。这样的组成是与上一代Ampere一模一样的,所以相应的Ada Lovelace的TPC和SM单元也分别增长到最多72个和144个。
再继续深入到SM单元里面,会发现其整体的结构也是与上一代Ampere架构一模一样,分为四个一样的主要计算模块,一个RT光追核心,以及128KB一级数据缓存/共享内存等。
而且每个主要的计算模块内的结构也和Ampere架构一样,有64KB寄存器文件、零级指令缓存、一个Warp调度器、一个分配单元、16个FP32单精度浮点CUDA核心、16个FP32/INT32单精度浮点和整数混合CUDA核心、一个Tensor Core张量核心、四个载入存储单元、一个特殊功能单元(SFU)用于执行图形差值指令。
而差别也很明显,那就是RT Core光追核心从之前的第二代升级到第三代,Tensor Core张量核心也从第三代升级到第四代。
全新的第三代RT Core可以提供2倍的光线与三角形求交性能,并且加入了两个全新的重要硬件单元——Opacity Micro-Map引擎和Displaced Micro-Mesh引擎。
Opacity Micro-Map引擎将光线追踪的Alpha-Test几何性能提升2倍;而全新的Displaced Micro-Mesh引擎可动态生成微网格,以产生额外的几何图形。Displaced Micro-Mesh引擎可在提升几何图形丰富度的同时,不以传统复杂几何图形处理的性能和存储成本为代价。
我们知道光线追踪的计算是以光线射向一个平面这样的模型来计算的,而实际的渲染中物体几乎不会是简单的平面型,而是各种曲面,所以就需要将曲面分解成许多个小的三角形平面,然后计算光线与三角形求交。在Ampere架构上,面对一个复杂的曲面,如果想得到逼真的光线追踪效果,那么分解的三角形平面是非常多的,多个三角形平面带来非常复杂的BVH,这就非常难以计算。
而Ada Lovelace架构的处理方式就不一样,通过Displaced Micro-Mesh引擎,它将这些三角形平面仅通过一个三角形然后加上不同的位移图来表达,显著缩短了BVH的的构建时间,同时BVH的存储空间需求也减小了很多,而最终仍然能实现一样的光线追踪最终渲染效果。
实际应用中由于Displaced Micro-Mesh引擎的存在,面对复杂物体的渲染,BVH的构建速度可以超过15倍,而存储空间的需求却可以小20倍之多,越是复杂的物体该引擎的优势就越能体现。
而且Displaced Micro-Mesh引擎不止可以应用在游戏领域,对于创作领域的用户来说,也有软件会支持,目前Adobe、Simplygon这两家企业已经确认得到了支持。
接下来我们说Opacity Micro-Map引擎。
Opacity Micro-Map引擎则是可以对游戏中常见的树叶这类物体加速光线追踪计算,Ampere架构面对这种场景的Alpha-Test需要多个着色器来进行计算,而Opacity Micro-Map引擎对于这种不透明的对象进行了不透明度的编码,可以更准确的对物体边缘进行光线追踪计算,简化了叶子轮廓之外完全透明和叶子轮廓之内完全不透明的区域的计算,耗费更少的着色器就可以实现真实的光线追踪渲染。
以《Portal with RTX》这个游戏为例,Opacity Micro-Map引擎可以让Gbuffer填充速度加快30%,游戏帧率提高10%。
而最终,这些改进下的第三代RT Core可以使完整的Ada Lovelace架构核心具有200 TFLOPS的有效光线追踪计算能力(最先上市的RTX 4090达到191 TFLOPS),几乎是上代产品的三倍。
对于第四代Tensor Core,最主要的变化是新增了Hopper FP8 Transformer Engine,可提供1400 TFLOPS的张量处理性能,超过上一代使用FP8加速性能的5倍,可以说深度学习性能得到了巨大的飞跃,这也意味着通过它可以实现新的技术想法,后面的DLSS 3我们会再次提到它。(最先上市的RTX 4090具有1.32 Petaflops的FP8张量处理性能)
说到DLSS 3,作为这次NVIDIA大力宣传的重点,相信大家都急不可耐想深入的了解这个技术,但是为了更清楚的了解DLSS 3,我们还得说两个新东西,那就是着色器执行重排序(SER)和Optical Flow Accelerator光流加速器。
着色器执行重排序技术的重大作用是可以极大的提升光线追踪性能,这是与CPU的乱序执行一样的重大创新。
由于光线追踪的特性,它很难并行处理,因为光线会向各个方向反射,并与各种类型的表面相交,所以光线追踪的工作负载需要不同的线程处理,需要不同的着色器,并且需要不同的显存来存取中间的计算过程。
而我们知道GPU的特点就是适合并行处理,只有面对并行处理的任务才可以发挥GPU的特点获得更好的计算效率,而着色器执行重排序就是可以通过实时重新调度任务,即时重新安排着色器负载来提高执行效率,从而更好地利用GPU资源,以实现更佳的光线追踪性能,据称,SER可以为光线追踪带来最高可达3倍的性能提升,整体游戏性能提升可高达25%。
应用了着色器执行重排序(SER)之后,《赛博朋克2077》在全景光线追踪模式下可以提高44%的性能,《Portal》RTX可以提高29%的性能,《Racer RTX》可以提高20%的性能。
回看前面的完整核心图,可以看到左上角清晰的标出了Optical Flow Accelerator,也就是光流加速器,而尽管之前的Ampere架构中没有提到这个东西,但其实Ampere架构也是有的,不同的是,Ada Lovelace架构中大大增加了光流加速器的运算性能,从之前Ampere架构的126 TFLOPS增加到现在的300 TFLOPS(详细值是305 TFLOPS)。
Ada的光流加速器带来的巨大的性能提升,具有实用性了,使DLSS 3能够预测场景中的运动,使神经网络能够在保持图像质量的同时提高帧率。前面提到的第四代Tensor Core的1400 TFLOPS的张量处理性能,加上这里Ada Lovelace光流加速器300 TFLOPS的光流运算性能,再加上后方的NVIDIA超级计算机提供的超过1 ExaFLOPS的AI计算性能,这三者就组成了这一代DLSS 3的硬件层面的保障,而前面讲了那么多基础性的东西,现在我们终于可以讲到通过这些东西能实现的直接与玩家接触的技术——DLSS 3。
新一代的DLSS 3包括全新的帧生成技术、DLSS 2超分辨率技术和NVIDIA Reflex技术,与之对应的就是目前在游戏中,DLSS 3对应了这三个选项——帧生成技术、DLSS 2超分辨率技术和NVIDIA Reflex技术——这三个都启用才算是完整的开启了DLSS 3。
而这其中,帧生成必须RTX 40系列才能支持,超分辨率则是RTX 40/30/20系列都支持,Reflex的要求最低——GTX 900系列及以后的都支持。
总得来说,DLSS 3是提升游戏体验的一整套解决方案,也就是说对于游戏体验的三要素——流畅度、延迟和画质——进行全方位的提升,而不是拆东墙补西墙的那种,接下来我们一个一个说。
先说它如何提升帧率。
之前的DLSS 2,提升帧率的方式简单说就是以低分辨率渲染,然后通过AI添加细节输出成高分辨率的帧,比如我们将游戏设置成4K,打开DLSS,那么实际的计算过程是先以1080p分辨率渲染帧画面,然后将这个帧画面拉伸成4K最终输出,中间相差的这3/4部分的像素信息是通过AI计算来添加的(本地主要是Tensor Core来计算)。由于以低分辨率渲染,所以在AI补充像素的性能足够的情况下,帧率自然可以提高了。
但是这样无法突破CPU性能的瓶颈,毕竟降低原始渲染分辨率可以使得GPU每一帧的计算量更少,但是CPU每一帧的计算量是不变化的(因为CPU负责计算的部分与分辨率并无关系),实际上,由于帧率提高,CPU的计算量其实还增大了。
那么DLSS 3是怎么做的呢?
首先,还是与DLSS 2一样,比如输出4K游戏画面的话,它也是先降低原始渲染分辨率到1080p,然后通过AI计算来添加像素拉伸成4K画面。在连续的游戏画面中,我们就可以通过这样得到连续的4K帧画面,第1帧、第2帧、第3帧等等。
然后这样的每两帧之间,DLSS 3可以了解场景的变化情况,通过光流加速器为神经网络提供像素级的帧到帧的运动方向和速度信息,然后通过渲染并拉伸的4K帧以及几何图形和像素的运动矢量并将其输入至神经网络,就能计算出两个渲染并拉伸的4K帧中间的帧画面了。
这样连续下去的话,原本的第1帧、第2帧、第3帧中间都会有一个新的帧,等于实际最终输出的帧画面中,有1/2是没有CPU参与的,完全是GPU计算出来的,所以理论上可以将原本受限于CPU性能的游戏帧率提高一倍。
另外,我们去关注像素的话,会发现靠传统渲染方式计算的像素其实只有1/8,最终输出的游戏画面7/8的像素其实都是通过DLSS 3的一系列AI计算填补上的,这极大的提升了效率。
然后我们说下画质。
其实看我们的网站的网友评论可以看到还是有很多网友对DLSS技术很抗拒,认为不是原始渲染出的画面就不好,笔者认为这一观念是需要改变了。且不说网友有这一观念可能是由于初代DLSS技术确实效果不佳,形成了刻板映象,即便之后的DLSS 2超分辨率技术已经有很好的画面也很难摒弃已经形成的观念,我们可以比较一下这几帧画面,完全看不出区别。
DLSS 2DLSS 2DLSS 3DLSS 3
DLSS 2DLSS 2DLSS 3DLSS 3
还有《逆水寒》的实机截图,DLSS 2和DLSS 3的画面质量对比,大家可以拖动仔细对比对比。
对于DLSS 3的生成帧这方面大家不免想到已经问世好久的各种插帧技术,DLSS 3的生成帧确实也可以算作插帧的一种,但是又与其他的插帧技术完全不一样。
简单的插帧技术利用两帧之间像素的位移来确定中间帧的图像,这样其实非常容易出现明显令人觉得视觉异常的画面,特别是对于阴影这种需要计算的画面效果,当主体移动之后,正确的阴影是需要经过复杂计算的,单单根据像素的位移来确定的画面几乎肯定违反客观世界的物理规律。
而DLSS 3它使用光流加速器分析两帧连续的游戏图像,计算帧到帧之间物体、元素的运动矢量数据,综合游戏中的一对超级分辨率帧,以及引擎和光流运动矢量,并将其输入至卷积神经网络,计算生成出新的一帧,大大提高了画面的准确性。
最后我们再说延迟。
通过前面的梳理大家会发现DLSS 3尽管提高了帧速率,也保证了画质,但是对于延迟是没有缩短的,因为每一个新生成的帧都是需要后一帧渲染出来之后才可以准确生成的。更高的帧率提升了游戏的顺滑程度,但延迟会影响游戏的响应度,如果延迟太高,游戏的体验也不会好,而为此,DLSS 3也集成了NVIDIA Reflex技术来降低延迟提高响应速度。
所以总得来说,DLSS 3是包括了基于AI的超分辨率提升技术、基于AI的帧生成技术以及NVIDIA Reflex低延迟技术这些软件层面以及第四代Tensor Core的1400 TFLOPS的张量处理性能、Ada Lovelace光流加速器300 TFLOPS的光流运算性能以及NVIDIA超级计算机提供的超过1 ExaFLOPS的AI计算性能组成的硬件层面综合实现的一项新技术,对于游戏体验的提升也不是单方面的,而是全方位的提升。
对于游戏开发者这一边来说,从支持DLSS 2到支持DLSS 3很容易,大部分引擎开发接口是相通的,DLSS 3还可以通过Streamline这一NVIDIA发布的开源平台进行集成,极大的简化了游戏开发者对新技术的集成工作,可以预期未来的DLSS 3集成速度一定不会慢。
首批支持DLSS 3的游戏及应用等也不少,包括了《巫师3:狂猎》、《黑神话: 悟空》、《赛博朋克2077》、《逆水寒》、《杀手3》、《微软模拟飞行》等热门游戏以及寒霜引擎、Unity 、虚幻引擎4 & 5 这些游戏引擎,有了这些知名游戏引擎的支持,未来的DLSS 3游戏数量可以说不用担心。
至于DLSS 3对于游戏帧数的提升,NVIDIA给出的数据如上,可以将游戏分为两类,一类是今天之前的游戏画面,这部分的提升平均在2倍左右,而另一类则是之后的游戏画面,可以理解为全景光线追踪的游戏画面,对于这样的游戏画面,提升平均可达4倍,当然,关于性能提升部分我们后面还会实际测试的。
游戏玩家中除了单机类游戏玩家还有电竞类游戏玩家,新一代GPU也将这方面的体验推到了新高度,现在已经可以在1440p分辨率下普遍达到360帧,而且系统延迟控制在10ms之内。
电竞类游戏玩家首要看重帧率及延迟,所以之前大都会在1080p分辨率下进行对战,以获取高帧率及低延迟,而新一代GPU将360FPS@1440p成为现实后,玩家照样可以在1440p下获取高帧率及低延迟,而通过统计,在27英寸1440p的显示器上进行游戏相比25英寸1080p的显示器平均成绩会提高3%,对于毫厘之争的电竞对战来说,这也是很重要的。
Ada Lovelace架构相比Ampere架构的另一项重要升级就是NVIDIA 编码器 (NVENC)升级到了第八代,开始支持AV1编码了。AV1的效率比H.264高40%,这意味着在传输同样质量的画面时候只需要大约70%的数据量,或者说在同样的带宽下可以实现更清晰的画面质量,并且由于AV1是免费、开放的,可以让厂商节省相当一笔费用,AV1已经明显将要取代H.264成为主流格式。
而在中国的备受欢迎的视频编辑应用“剪映专业版”、Blackmagic Design 的 DaVinci Resolve 18、以及 Adobe Premiere Pro 较为流行的 Voukoder 插件均支持 AV1,且均可通过编码预设使用NVENC AV1编码器。此外,OBS、Discord以及更多的公司都已在采用NVENC AV1编码器。
首发的RTX 4090给开放了两个NVENC编码器,这两个NVENC可实现协同工作,并自动分配以实现双路输出。全新的双编码器可将视频导出时间缩短至原来的一半,主播用户可借助第八代编码器中 AV1 双编码器的优势提升直播体验,还可以通过OBS Studio 录制高达 8K60 的内容。
这部分我是特意留着作为压轴好戏来讲的。
先回顾一下几个数据,2018年的TU102是754mm2,拥有186亿个晶体管;2020年的GA102是628.4mm2,拥有283亿个晶体管;而如今2022年的AD102是608.5mm2,拥有763亿个晶体管。
可以清楚的看到核心面积一直在减小,而晶体管数目则保持非常高的增长速度,当然,面对制程在进步,这其实也很正常,但是今年的Ada Lovelace架构GPU实在这方面涨的太恐怖了,AD102晶体管差不多是GA102的2.7倍!
而在先进的TSMC 4N NVIDIA定制工艺的加持下,RTX 4090的功耗则与RTX 3090 Ti一样保持在450W,这足以令人意识到Ada Lovelace架构GPU的能耗比的巨大飞跃,事实上,新的Ada Lovelace架构相比Ampere架构实现了巨大的飞跃,同功耗下的性能可达2倍。
在能耗比方面,之前Ampere架构相比Turing架构的提升并不大,这个我们还专门做过测试——《Ampere、Turing、RNDA比一比:三大架构显卡能耗比对比测试》,测试的结果是相对于上一代的Turing架构桌面显卡,Ampere架构在能耗比方面具有了12%的提升,并不算出众,而这一代直接来了个2倍的能耗比,让人感觉说直接进步了两代都不为过。
添加了Opacity Micro-Map引擎和Displaced Micro-Mesh引擎的第三代RT Core可以使完整的Ada Lovelace核心具有200 TFLOPS的有效光线追踪计算能力,几乎是上代产品的三倍。第四代Tensor Core新增了Hopper FP8 Transformer Engine,超过上一代使用FP8加速性能的5倍。
这两项新的第三代RT Core和第四代Tensor Core加上之前从Ampere架构延续下来的内部结构形成了新的更强的SM单元,并且还加入了堪比CPU的乱序执行一样具有突破性的着色器执行重排序技术,这就足以令人对新一代Ada Lovelace架构GPU倍感期待。
而Ada Lovelace架构还不止于此,它还增加了算力超过300 TFLOPS的Ada光流加速器、以及支持AV1编码和双编码器的第八代NVIDIA 编码器 (NVENC)、换用了先进的TSMC 4N NVIDIA定制工艺,使得AD102晶体管差不多是GA102的2.7倍!并且直接来了个2倍的能耗比,等于一下子进步了两代!
更为重要的是,突破性的DLSS 3技术将游戏体验推到了新的高度,玩家不再需要在帧率、延迟和画质之间取舍,DLSS 3将在这3大方面进行全方位的提升,并且可以克服CPU的瓶颈。
总的来说,这一代Ada Lovelace架构的进步之大纵观整个GPU发展历史都难以找到与之匹敌的,它打开了“全景光线追踪”世界的大门,未来的游戏世界将如我们现在看到的好莱坞CG动画一般与现实真假难辨,而这一切都是实时渲染的,而不是如今的CG动画这样仍然需要耗费巨大财力和漫长的制作时间,这是令人难以想象的,而实现这一目标的,正是DLSS 3与全景光线追踪。
回首4年前,NVIDIA发布了第一代RTX GPU,不破不立,作为图形渲染领域的重大变革,仅仅用4年时间和三代产品,我们就可以明显感知到图形质量已经坐上了发展的快车道,全景光线追踪原本是距当下技术程度而言遥不可及的天上明月,而NVIDIA智慧性的利用了AI技术,通过最新的DLSS 3使得这轮明月触手可及,在历经了漫长的数字货币风波的侵袭之后,玩家们太需要这样一代飞跃性的产品来慰藉了。