谁是生成式AI最大的受益者?至少在芯片产业链,一定是GPGPU(通用图形处理器)绝对龙头英伟达。在AI芯片,在GPGPU领域,天下英雄谁敌手?答案是没有。
在优良业绩的助推下,英伟达一度站上一万亿美元市值。这是芯片行业内其他公司难以企及的高度,其市值也达到芯片巨人英特尔的七倍。
作为英伟达的创始人,黄仁勋究竟有什么魔法把公司带到如此高度。从近日黄仁勋在台大的演讲中,或能窥得一二。
“学会放弃,是迈向成功的核心关键。”黄仁勋是这样说的,也是这样做的。十年前的2013年,英特尔还在耗费巨资补贴移动端平板厂商;华为凭借P6手机,带领海思K3V2芯片初露锋芒。而英伟达,却渐渐淡出了彼时风头正盛的移动端SoC市场。
“我们的放弃获得了回报,我们创造了一个新的市场——机器人技术。拥有神经网络处理器和运行AI算法的安全架构。”黄仁勋说道。
但任何人无法仅靠“放弃”获得成功。放弃之外,黄仁勋更多的是“专注”。芯谋研究总监李国强告诉《每日经济新闻》记者:“(英伟达的成果)源自它的专注,其长期专注于GPU领域,又赶上了AI生态的爆发。这两个方面造成英伟达成为全球芯片产业王者。”
图片来源:视觉中国-VCG31N1237120515
身着皮夹克的“狂人”,这是业界对黄仁勋的印象,游戏玩家们在各大论坛中也常常亲切地喊他“老黄”。由于英伟达每一阶显卡,在价格和性能上只比次一阶高一些,因此黄仁勋也被称为“刀客”,这种错落有致的各阶显卡布局,也被叫做“老黄刀法”。
在这次演讲中,老黄一改“皮衣刀客”的狂人形象,穿起了礼服,显得温文儒雅。演讲中,黄仁勋讲了一个有趣的故事。十年前,台大陈教授邀请他来看其物理实验室,只见整个房间都是英伟达的游戏显卡,插在开放式电脑的主机板上,金属架上都是散热用的大风扇。陈教授告诉他:“黄先生,因为你的关系,我可以完成我的事业。”
陈教授的话深深地感染了黄仁勋,“(陈教授)说的那些话至今仍感动我,完美诠释了我们公司的价值:帮助这个时代的爱因斯坦与达芬奇完成他们的事业。”
爱因斯坦在创立广义相对论的过程中,曾寻求同时代数学家的帮助。
而在如今这个时代,无论AI,亦或物理学、生物学的研究,都离不开算力的支持。英伟达,正是AI芯片的领军者。
“放弃”与“专注”,可谓黄仁勋成功的关键。十年前,AI并不兴盛,行业里关注的焦点是移动端。智能手机、平板的大爆发,使得移动端芯片成为各大芯片巨头的“兵家必争之地”。
英伟达在移动端“起得早”,却最终放弃。据英伟达官网,早在2008年,英伟达就推出针对移动端的Tegra芯片;2011年5月,为了补基带的短板,英伟达又收购了Icera公司,后者在针对3G和4G网络的手机、平板电脑的高性能基带处理器领域一直是领先的创新者。
当时,黄仁勋宣称:“这是英伟达在移动计算革命浪潮中成为领先公司的关键一步。通过将Icera公司的技术整合到Tegra中,我们将开发出一个极佳的平台,用以支持行业中最好的手机和平板电脑。”
只是,在这轮移动计算革命浪潮中,英伟达失败了,胜利属于苹果、高通和联发科。2013年,英伟达在拉斯维加斯国际消费电子展上发布Tegra4,这款芯片也成为英伟达在手机芯片领域的“绝唱”。此后,Tegra系列芯片主要应用在任天堂Switch主机上。
尽管当下手机芯片行业不景气,但这依旧是一个巨大的市场。十年前,要做出放弃手机芯片市场的决定,更是非常艰难。
但黄仁勋选择放弃一个规模巨大的市场,去创造一个未知的市场。在演讲中,黄仁勋感叹:“从巨大的手机市场撤退,再创造一个不知道市场规模的机器人市场。然而,现在的我们拥有数十亿美元的自动驾驶、机器人技术的事业,也开创一个新的产业。”
在桌面CPU,英特尔、AMD双雄并立;在移动端SoC,苹果小幅领先,高通、联发科、紫光展锐等公司各领风骚。在AI芯片领域,不乏AMD、英特尔这样的老牌芯片巨头,也有芯片大神Jim Keller带领下的初创公司Tenstorrent。尽管巨头云集,大神汇聚,英伟达依然能够“一骑绝尘”。
为何没有敌手?“英伟达赢在CUDA(Compute Unified Device Architecture,英伟达推出的通用并行计算架构),赢在软件。”一位前券商分析师如此回复记者。其后,《每日经济新闻》采访了多名行业专家及GPGPU行业工程师,CUDA几乎均被提及。由CUDA构建的软件生态,是英伟达能够独领风骚的关键。
英伟达领先其他GPGPU厂商的优势到底有多大?“院士与高中生的差别。”芯片工程师林达(化名)告诉记者。那英伟达跟AMD呢?“院士和大学教授吧。”其回复道。
拉开差距的关键,在于生态。“生态是第一位,(CUDA)跟安卓系统很像,太成熟、太方便,生态太强了。就像可乐一样,程序员已经习惯(CUDA)这个饮料了。而(CUDA)把门槛搞得很低,就好像你数学差,但是你会用计算器。”林达向记者解释。
那么其他AI芯片公司能否使用类似CUDA的工具?比如AMD推出的ROCm(Radeon Open Compute Platform)以及非盈利组织Khronos Group推出的OpenAI。
林达举例回复称:“跟你买螺丝、扳手一样。你也可以不通用,但是没人陪你玩啊。AMD也搞了个,但是自己都不用。”
与非网资深行业分析师张慧娟向记者解释道:“英伟达2006年就推出CUDA了。正是CUDA的推出,降低了GPU的应用门槛。软件开发者可以通过CUDA使用C/C++等语言,来编写GPU片上程序,降低了GPU的应用门槛。也是从那时开始,GPU逐渐脱离了图像处理这一单一用途。它不仅仅可以用于图像处理,也可以用于高性能计算。”
简单说,CUDA降低了GPU的门槛,使得GPU的应用领域从图像渲染拓展到方方面面,真正成为通用型处理器,因此也有了GPGPU(通用图形处理器)的说法。
“英伟达所有架构都在CUDA之上,一直从头走到现在,包含了很多层级在里面,包括编译器、调试器、丰富的库函数、各种软件工具,是很庞大的资源。假设现在有一个新的硬件平台,但是不兼容CUDA,那么对开发者来说就意味着大量的软件移植工作。因此一些平台可能会选择兼容CUDA,也就是CUDA加速的软件可以跑在他的硬件上,不过实际的效率和性能表现,都有待观察,这也是CUDA生态环境的强大之处。”张慧娟补充表示。
国内头部GPGPU厂商工程师刘默(化名)6月5日告诉记者:“经过多年的建设,英伟达的CUDA已经有400万开发者,基本形成了垄断态势的生态壁垒,而软件生态恰恰是下游客户最为重视的产品竞争要素,这是英伟达相对于AMD、Intel以及其他初创企业的最大优势。”
既然CUDA如此重要,其他厂商可以提供自己的硬件,然后使用CUDA生态吗?
在这个问题上,刘默认为:“CUDA是一个完全封闭的系统,目前可以真正兼容CUDA,或者说叫使用CUDA的企业(除英伟达自身外)就AMD一家,AMD和英伟达之间有相关的IP授权,这样英伟达的MI系列GPGPU可以使用CUDA。但其他初创企业都不能直接使用CUDA。目前初创企业有两种思路,第一种往往是AMD系出来创业的企业,由于其芯片架构类似AMD的产品,因此硬件条件上可以直接使用CUDA,但由于IP的问题,对方会在CUDA的基础上微调出自己的软件栈,这种虽然便于用户从CUDA环境迁移过去,但存在IP的风险;第二种就是完全原创的软件栈,这种最大的问题就是客户存在一定的迁移成本,对商业落地产生负面影响。”
电子创新网CEO张国斌也对记者表示:“让NVIDIA自己开放CUDA硬件,以便其他厂商将CUDA集成到自己的芯片中,并运行自己为CUDA开发的软件,这种可能性是没有的,黄仁勋已经彻底否定了,毕竟CUDA在这方面是领先对手的,NVIDIA不可能将自己的优势开放给其他厂商甚至对手。”
在演讲中,黄仁勋寄语学子:“你们即将进入一个正在经历巨大变革的世界,就像我毕业时遇到个人电脑和芯片革命时一样,你们正处于AI的起跑线上。每个行业都将被革命、重生,为新思想做好准备。不论是为了食物而奔跑,或不被他人当做食物而奔跑。你往往无法知道自己正处在哪一种情况,但无论如何,都要保持奔跑。”
李国强表示:“英伟达很早就开始进入GPU的研发,且长期专注于GPU。在AI领域,需要的是高算力并行计算,最适合的就是GPU。(英伟达)核心产品还是GPU,别的东西也有尝试,后来都是慢慢退出。”
此外,英伟达所建立的优势,并不局限于CUDA生态,还有硬件架构与制程。张慧娟表示:“对于所有芯片而言,硬件架构是基础,它就像房子的框架。比如H100,就采用最新一代Hopper架构,该架构针对大模型就有一些跨单元的协同计算,拥有更好的加速能力。其最新推出的GH200,则属于异构集成架构,它采用英伟达自己的Grace CPU和H100 GPU,在CPU和GPU中间采取自己的NVLink互连技术。这样的架构解决了很多数据传输的瓶颈,把CPU与GPU之间的带宽大大提高了。”
这两款产品,是英伟达即将推出的新品。目前全球大模型训练,使用最多的仍是英伟达A100。张慧娟认为:“A100采用的还是上一代的安倍架构,这个架构也针对AI提升了它的计算性能吞吐量,包括更大的内存、更高的带宽,这些对于大规模计算都是必不可少的。我们只是看了最新两代的架构,再往前看,英伟达从面向游戏,到面向高性能计算,一代一代架构演进,这对它来讲是非常重要的。”
来源:每经记者 朱成祥 作图
英特尔曾施行Tick-Tock(一年升级制程、一年升级)策略,后因制程长期卡在10纳米而难以推行。而英伟达,从2008年推出特斯拉架构,到2022年推出Hopper架构,一共推出9代架构,甚至不到两年就推出一代架构。此外,由于跟台积电的密切合作,英伟达使用的制程一直是最先进的。
头豹研究院TMT行业高级分析师陈文广告诉记者:“H100 采用了台积电 4nm 工艺,集成了 800 亿个晶体管,比上一代A100足足多了260亿个,是目前全球范围内最大的加速器;其CUDA核心数量则飙升到了前所未有的16896个,达到A100的2.5倍。浮点计算和张量核心运算能力也随之翻了至少3倍,比如FP32就达到了达到60万亿次/秒。更重要的是,H100面向AI计算,针对Transformer搭载了优化引擎,使大模型训练速度直接提升了6倍以上。这意味着,无论是训练1750亿参数的GPT-3 ,还是3950亿参数的Transformer大模型,H100都能将训练时间从之前的一周缩短到1天之内。这些突破性的技术创新帮助英伟达保持在高端芯片市场的绝对领导地位。”
或许,就如同黄仁勋所言,英伟达“一直在奔跑”。其对学子们表示:“无论是什么,像我们一样全力以赴去追求它,跑吧!不要慢慢走。”
是的,跑吧!不要慢慢走。正是在不断奔跑中,英伟达逐步站上全球芯片之巅。在GPU领域,曾经的王者3DX、ATI陆续被收购,唯有英伟达屹立不倒。在GPU软件生态中,也涌现出微软DirectX、ATI Stream,但在这场长跑中,胜者属于CUDA。
而专注,或许是英伟达能从长跑中胜出的原因。微软的重心不在GPU软件生态,ATI被AMD收购之后,AMD也更倾向于CPU与GPU的异构协同。软件是这样,硬件同样如此。在李国强看来,英特尔、AMD都是横跨CPU、GPU和FPGA的龙头,而英伟达长期专注GPU。
长期专注、不断奔跑,奠基了英伟达芯片帝国的霸业。而在异构计算大潮下,英伟达也布局多类型芯片。比如前文提及的GH200,就融合了英伟达基于ARM架构的CPU和自身GPU。除此之下,英伟达还通过收购,推出DPU产品。
2020年上半年,英伟达以69亿美元对价收购以色列网络芯片公司Mellanox Technologies,并于同年推出BlueField-2 DPU,将其定义为继CPU、GPU之后的“第三颗主力芯片”。
CPU、GPU人们已经比较熟悉,DPU又是做什么的?据英伟达官网,DPU是一个用于数据中心基础设施的先进计算平台,可大规模提供加速的软件定义网络、存储、安全和管理服务。
张慧娟向记者解释:“随着数据量越来越大,使用传统的CPU处理已经跟不上数据的爆发。尤其是短视频、视觉类应用,数据量是爆炸式、指数级增长的,DPU应运而生。此前,一些FPGA厂商也在进行这方面的探索,自英伟达收购了这家DPU公司之后,DPU这个市场被迅速带火了,AMD(2022年斥资19亿美元)收购DPU芯片厂商Pensando,国内也涌现出好几家DPU创业公司。”
在这轮“第三颗主力芯片”大潮中,英伟达也在构建自身的软件生态,其于2021年推出DOCA。
何为DOCA?英伟达简单直接地解释道:“DOCA之于DPU,正如CUDA之于GPU。”
“如果说CUDA是GPU的灵魂,那么DOCA就是DPU的灵魂。因为芯片如果没有好用的软件配合,就是一个(干巴巴的)硬件。就如同手机,假如没有丰富的APP,可能就只能打电话。正是因为有了软件,让开发者开发出各种各样的应用,硬件的应用才如此丰富。”张慧娟表示。
通过硬件架构和软件生态,英伟达已经在GPU领域构建强大的壁垒。在DPU领域,英伟达似乎也要如法炮制。
谁能撼动英伟达的地位呢?目前可能还没有。“除非英伟达自己出现重大失误,但是这样的可能性很小。”张国斌表示。
刘默认为:“AMD的MI300是目前从硬件水平和软件生态上最接近H100的产品,无论是国外的初创公司例如Graphcore,还是国内的几家企业,目前还没有能够替代英伟达H100的产品。此外,英伟达依靠其巨大的出货量以及在芯片制造上的投入,已经和台积电形成了紧密的合作,而非简单的客户与供货商关系。比如H100使用的4nm制程,就是英伟达和台积电在公版5nm制程的基础上进行优化后的特制版本。”
曾经在桌面CPU领域,英特尔也是一骑绝尘。因为领先太多,还有“i3默秒全”的说法,即i3在默认频率下就能秒AMD全系列。然而AMD在苏姿丰的带领下,如今已成功与英特尔平分秋色。
AMD还能在GPU领域上演奇迹吗?李国强认为:“确实存在这种可能。但英特尔之所以会被AMD赶上来,根本性原因在于其在晶圆制造技术上。当时英特尔在10纳米节点停滞了,但AMD是Fabless模式,通过与台积电合作才翻身。而英伟达本身就和台积电密切合作。”
一直在奔跑的英伟达,一直在奔跑的黄仁勋,谁又能颠覆呢?
每日经济新闻