【环球时报报道 记者 马俊】伴随着人工智能(AI)技术的高速发展,包括OpenAI公司CEO山姆·奥特曼在内的业内人士都开始担心,它将被能源问题“卡脖子”,因为AI当前面临的现实难题之一就是能源和智能的转化效率。被称为“硅谷钢铁侠”的特斯拉CEO马斯克近日也警告称,“AI算力瓶颈是可以预见的”,未来可能没有足够的电力能满足AI对算力的需求。有没有办法缓解AI发展与算力消耗海量资源之间的矛盾?《环球时报》记者就此采访了业内专家。
训练AI为何会消耗海量资源
随着OpenAI公司发布的聊天机器人ChatGPT的爆红,各国都加快了AI大模型的训练,需要的算力也急速增加。马斯克最近在公开采访中表示,现在AI对算力的需求差不多每半年就会增加10倍,AI算力的瓶颈是可以预见的:“一年前,短缺的是芯片。然后下一个短缺的将是电力。当芯片短缺缓解之后,明年可能就会出现电力将不足以运转这些芯片。”
AI与人争资源。本版配图由AI合成 为何训练AI对于电力的消耗如此庞大?这是因为大语言模型的规模实在太大。OpenAI的大语言模型GPT-3拥有1750亿参数,而GPT-4拥有2万亿参数。要训练这种规模的模型,需要在大规模数据集上反复迭代,每次都需要计算和调整其中数百亿乃至数千亿个参数。为完成如此庞大的计算,需要动用由大量服务器组成的数据中心。例如GPT-4完成一次训练需要约3个月,使用约2.5万块英伟达A100图形处理器(GPU)。以每块GPU的功耗400瓦计算,GPT-4一次训练就要耗费2.4亿度电。
据《环球时报》记者了解,数据中心通过网络提供高效的数据计算和存储服务,是承载算力的基础设施。随着传统科学与工程计算对算力的需求持续增长以及人工智能应用对算力需求的急剧上升,预计未来5年内智能算力规模的复合增长率将高达52.3%。据统计,2022年中国数据中心耗电量达2700亿度,占全社会用电量约3%。预计到2025年,全国数据中心用电量占全社会用电量的5%。2030年全国数据中心耗电量接近4000亿度。
除了芯片运算时的耗电量外,数据中心运行时还需要耗费大量淡水用于冷却服务器产生的热能。益企研究院创始人张广彬告诉《环球时报》记者,数据中心消耗的水,主要用于散热(冷却)环节。就是通过水的蒸发,换取数据中心内部温度的降低。美国科罗拉多大学的研究表明,每当ChatGPT回答20-50个问题,就需要消耗500毫升水资源用于冷却计算设备和为数据中心供电的发电厂。OpenAI公司今年年初发布的“文生视频”大模型Sora以惊人的视觉冲击力令全球瞩目,但相关评估认为,为此消耗的算力约是生成文字对话的千倍以上,它在峰值运算时消耗的电力和水资源更是天文数字。
对于AI与人争夺资源的担忧正在快速增加。谷歌发布的2023年环境报告显示,该公司2022年耗水量高达2545万立方米,相当于8500个标准游泳池。到2027年,全球范围内的AI需求可能需要消耗66亿立方米的水资源,几乎相当于美国华盛顿州全年的取水量。美国AI企业的数据中心从科罗拉多河取水计划遭到当地民众的抵制。谷歌在乌拉圭南部建立数据中心、微软在智利建立数据中心等海外项目也引发了当地人的抗议。
降低散热能耗,有多条技术路线
业内常用PUE值作为评价数据中心能源效率的指标,它是数据中心消耗的所有能源与IT设备能耗的比值,PUE值越接近1,说明能效水平越好。传统风冷数据中心PUE值在1.5左右,意味着IT设备自身能耗占比约为六成,以制冷为主的其他能耗约四成。因此降低散热能耗,不但是数据中心最直接的节能方向,还可节省大量用于散热的水资源。
脸书、谷歌等公司纷纷选择在北极圈附近修建大型数据中心,借助低温的自然环境,可节省大量的冷却电力。中国近年推动的“东数西算”战略,在贵州、青海、内蒙古等地修建数据中心,在很大程度上也考虑了这方面的因素。在海底数据中心方面,微软早在2015年就将试验性的数据中心建在苏格兰周边的北海海域水下,但没有大规模推广。
中国海南海底数据中心于2022年12月成功将全球首个海底数据中心核心装备“海底数据舱”放入海底,开启了全球商业海底数据中心运营的先河。业内人士介绍说,“以陆地1万个机柜为例,同等算力的海底数据中心,每年能节省用电总量1.75亿度、节省淡水15万吨。数据舱内恒压恒湿无氧无尘的环境还会让服务器的可靠性大幅提升。”
但这些方案受到自然环境、网络技术等约束较大,而且会让数据中心远离主干网络,影响运维的便捷性。对于常规地面数据中心而言,更可行的方案是将风冷模式转为液冷模式,即用特制液体取代空气作为冷媒为发热部件进行散热,主要包括冷板式“非接触液冷”以及浸没式和喷淋式“接触液冷”技术。
曙光数创股份有限公司董事长任京暘接受《环球时报》记者采访时表示,国家相关部门多次出台有关政策,推动数据中心等设施的节能减排,如明确要求到2025年,全国新建大型、超大型数据中心PUE值降到1.3以下。从曙光实践来看,最先进且成熟度最高的液冷技术是“浸没式相变液冷方案”,能让数据中心PUE值最低降至1.04,这一结果在世界范围来看,是处在第一梯队的。它在完全释放计算设备性能的同时,可极大提高设备稳定性。但最显著的一点还是可极大降低数据中心设备的散热能耗,且不受地域、环境等影响。
张广彬表示,液冷技术是当前数据中心节能的热门方向。他透露,液冷技术还有一个光看PUE值体现不明显的优势。在IT设备能耗中,包括了服务器风扇的用电和电源模块转换的损耗,其中风扇的用电是大头,能占到服务器总用电的10%甚至更多。而浸没式液冷理论上可以完全不用风扇,冷板式液冷的风扇只需要负责20%-30%的散热量。所以采用液冷技术的数据中心PUE值可能没有很明显下降,但实际更省电了。
任京暘还介绍说,在节水方面,曙光最新研发的“液冷节水型室外机”,采用离心雾化等新型散热技术,在西北限水、缺水地区部署,相比传统闭式冷却塔设备可节水70%-80%。该方案通用于风冷、液冷等多模式数据中心,可最大程度支持我国西北缺水地区建设中大型节水数据中心。
超算互联网是未来方向之一
张广彬认为,数据中心基础设施层面节能减排的传统手段,随着PUE值逐渐逼近1,已快趋近极限了。“采用各种节能措施,把供电损耗、制冷开销等环节的浪费控制在很低的水平之后,剩下的就是必需的业务需求了。不能单纯指责数据中心耗能,这应该是信息社会的必需开销。总不能通过削减真实的应用需求,来达到节能的目标。”他认为,未来数据中心节省耗能仍然大有可为,包括对上层软件和应用进行优化,减少不必要的算力使用量。“如果通过优化大模型,让60亿参数的模型能达到原来130亿参数模型的效果,那就可以减少GPU和服务器的使用量,最终降低数据中心层面的用电量”。
技术的进步也能在一定程度上缓解外界对于AI能耗的担忧。英伟达首席执行官黄仁勋6月2日宣布,新一代AI芯片架构在性能提升30倍的同时,能耗只有上一代产品的1/25。美国波士顿大学工程教授科斯昆认为,在AI巨头完成大模型的测试后,AI能耗问题可能就没有那么突出了。届时将确定哪些领域需要复杂模型,哪些领域只要简单模型就够了。“人们开始思考这个问题:‘我是否真的需要用大锤子敲击这个小钉子,也许只用一把螺丝刀就够了?’”
接受《环球时报》采访的专家表示,当前流行的通用大模型训练高度消耗算力,从长远来看,只有少数有条件有基础有能力的机构能持续推进。考虑到技术和经济性,未来更合理的发展方向是针对领域应用问题,基于通用大模型开发领域模型和推理系统。在这方面,美国安腾超级计算机提供了很好的例子。它采用专用超级计算机体系结构用于生物系统的分子动力学模拟,在由专用高速互联网紧耦合连接的分子动力学计算ASIC芯片上执行海量并行计算,所消耗的能源只有同期最快GPU的1/10。
国内方面,今年4月正式上线的国家超算互联网,也有望在减少未来AI训练能耗方面发挥重要作用。国家超算互联网是以互联网思维运营超算中心,依托一体化的算力调度、数据传输、生态协作体系,实现算力供给、软件开发、数据交易、模型服务等产业链相关各方的紧密链接,构建市场化、互联网化、标准化的先进计算服务环境。国家高性能计算机工程技术研究中心副主任曹振南告诉《环球时报》记者,未来国家超算互联网所连接的各个算力中心会扮演不同的角色,“类似医院会分为专科医院和综合医院,未来算力中心可能也会分化为专科算力中心和综合算力中心,其中专注于大模型训练的专科算力中心,所使用的能耗、性价比肯定要超过通用算力中心。”其次,国家超算互联网可优化算力的调度和服务,在提供同样算力情况下,进一步降低能耗。
中国正在推进的“东数西算”战略是考虑到东部电力紧张,西部新能源丰富,在西部合理布局建设数据中心,承接东部的算力需求。曹振南表示,通过超算互联网打造的算力网络在“东数西算”中节省的能源也是相当可观的。