在上海临港新片区,中国AIDC建设的“样板间”——商汤科技上海新一代人工智能计算与赋能平台(商汤临港AIDC)正以惊人的速度,不断挑战自我。目前,算力规模已高达8100 petaFLOPS,远远超出立项规划算力。
以“坚持原创,让AI引领人类进步”为使命,人工智能软件公司商汤科技长期致力于原创技术研究。前瞻打造的高效率、低成本、规模化的新一代AI基础设施 SenseCore商汤大装置,以AI大模型开发、生成、应用为核心,赋能人工智能生产新范式。2022年,作为大装置重要载体的商汤临港AIDC正式投入运营,成为亚洲最大的人工智能计算中心之一,推动人工智能产业的规模化落地。
商汤科技大装置事业群智算中心总经理林海日前接受采访时表示,经过两年多的运营,商汤临港AIDC已取得比较重大的进展,实现了万卡的超大集群互联,并行效率达90%,可在园区里实现万亿参数模规的模型训练。在训练稳定性上,具备了超30天稳定训练不间断的能力。
林海 商汤科技大装置事业群智算中心总经理
商汤科技董秘办董事总经理盛世伟介绍说,2023年商汤迅速顺应技术发展趋势进行转型升级,从AI 1.0时代跨越到AI 2.0时代,以生成式AI技术为核心,实现了颠覆性变化。去年,生成式AI相关收入达到12亿元人民币,在国内率先实现该领域的规模化收入。
盛世伟 商汤科技董秘办董事总经理
数字经济时代,算力是新质生产力。构建全国一体化算力网,是应对新一轮科技革命和产业变革的战略举措,是发展新质生产力、做强做优做大数字经济、推动区域协调发展、推进数据要素流通、落实“双碳”战略的关键一步。今天,我们的镜头就跟随“中国式现代化奋进者”——商汤大装置团队的科研大咖,去探访“样板间”里的奥秘。
AI开发平台领军者
走近商汤临港AIDC的一间硬核机房,耳边是低沉的机器轰鸣声,柔和的白色灯光洒落在整齐排列的服务器架上,空气中弥漫着电子元件的特有气味。这些尖端服务器运行着商汤多年积累的人工智能训练框架,从算力层、平台层到算法层全面打通,能够快速响应各种定制化需求。
商汤科技大装置事业群智算中心技术总监宋祎寓介绍说,“千卡并联、万卡并联,指的是规模,真正落到底层就是相应的一个个集群,这间房间跑的是一个国产化的小集群。大装置团队是一个整体架构,从基础工程师到中层研发数据的AI工程师、市场端的应用工程师,将整个应用形成一个产业端的价值闭环。”
宋祎寓 商汤科技大装置事业群智算中心技术总监
作为上海国际科创中心建设的标杆项目,商汤临港AIDC一期投资56亿元,主要建设园区智算大楼与科研行政大楼,用于AI智算中心平台硬件搭建、平台软件、平台管理系统与大模型应用等多方向研发。项目占地87亩,整体规划建筑面积13万平方米,一期已建成7万平方米。
“2020年策划AIDC项目时,整个市场里并没有这么一个开放、高效、集约化、规模化的算力平台。”林海说,以开放的算力平台去支撑整个产业发展,商汤是第一波吃螃蟹的人。大装置的模式本身就是一个创新,它的定制程度,以及整体的效率、成本,都达到了前所未有的水平,加快了行业发展速度,也降低了行业成本。
目前,SenseCore商汤大装置管理的算力实现全国联网的统一调度,在上海、深圳、广州、福州、济南、重庆等地都拓展了新的计算节点,总算力规模高达12000 petaFLOPS ,已有超4.5万块GPU。在支持商汤自身大模型研发的同时,也支持外部客户训练大模型和应用部署。强大算力可支撑超过20个千亿超大模型同时训练,并支持万亿参数大模型的全生命周期生成,成为国内训练大模型最为先进的基础设施,在互联规模、加速效率和稳定性上保持业界领先水平。全新推出的“模型即服务”商业模式,使客户能够轻松地在大装置微调和调用各类生成式AI能力。
根据国际知名调研机构弗若斯特沙利文联合头豹研究院发布的《2023年中国AI开发平台市场报告》,商汤大装置成为AI开发平台领军者。盛世伟表示,商汤大装置的算力“基础设施”可谓供不应求,在用于自研的同时,为互联网头部企业和金融类、医疗类等企业提供服务,与各行各业的“灯塔客户”形成生态合作,与清华 、上海交大等高校和科研院所开展科研合作。而To C端的一些产品如商量、秒画、如影等,也都取得了好成绩,文生视频模型在研发上也取得了重要成果。
“新质生产力”孕育者
新质生产力具有高科技、高效能、高质量特征,以全要素生产率大幅提升为核心标志。算力、算法是AI核心要素。SenseCore商汤大装置通过重构算力、算法的供给或服务模式,实现了AI生产要素的创新性配置,大幅提高了AI技术的生产效率和质量,为AI发展打造“新质生产力”。
例如,在算力层面,大装置重构了算力的供给体系。通过提供规模化、高效率、集约化的算力基础设施服务,能够大幅提高各行各业算力的利用能力,降低传统自建算力方式的使用成本,实现了算力这一要素供给效率的提高。
在林海看来,通过算力服务、模型服务,提升整个人工智能行业的发展效率,从这个意义上来讲,大装置是很典型的新质生产力的代表。“这几年我们非常重要的一个发展点是国产化,实现国产化集群的并行规模,是我们的核心任务。未来我们会做全国的一张算力网,以上海临港为一个核心点,向全国各地铺开,在东数西算的过程中,起到更大的作用。”
目前,商汤大装置支持了商汤“日日新”大模型体系的高速迭代,大装置+大模型深度协同,促使“日日新”能力每隔三个月就会显著提升。各行各业的用户只需要在基础模型上进行微调或增量训练,就可以高效率地开发出符合自己需求的高质量行业模型。今年2月推出的“日日新”4.0,在代码编写、数据分析和医疗问答等多场景中达到了与GPT-4相匹配的能力。
“大模型离不开大装置,从训练到推理,如果没有以算力为核心的基础设施作为支撑,大模型根本就跑不起来,就是无本之源。”盛世伟透露,商汤将于 4月技术交流日上,推出“日日新”5.0大模型,见证中国人工智能发展史上又一个里程碑。
拥有无尽激情的创新者
“大装置是商汤的底座平台,是一个非常复杂系统的工程,团队组成跨度也很大。”林海介绍说,大装置团队由400余名多领域人才组成,分布在上海、北京和深圳等地。目前临港园区的团队包括基础设施建设及运维、IT基础设施、基础软件IaaS、AI云产品、AI大模型训练与推理平台服务等团队。
面对一项项挑战,大装置团队攻坚克难、不懈奋斗,以无尽的激情拥抱创新,展开了“从0到1”原始创新探索,开启了算力商业化进程。林海说,临港园区投运前,建设期非常短,公司举全力建设,团队日夜奋战,18个月的建设过程中,刷新了很多建设速度的标杆,包括在政府部门支持下,同一天完成竣工备案和产权证。
宋祎寓记得,园区建成前,这里还是一片瓜田,“后来西瓜都被我们吃掉了,它就变成了这样的园区。”他说,2022年1月运行后的第一年,要把整个集群的设备搭建起来,团队上百人面对非常大的压力和挑战。“从运输到搭建,再到连线完成、测试完成,年底时,我们已经将全国3000P左右算力运载回了主基地,完成了上线。”
在大装置团队当中,不乏身怀艺术细胞、音乐天赋,但又拥有对学术执着精神的科学家,他们以独特的视角,为商汤大装置的发展注入源源不断的创新活力。这种跨界的思维碰撞与灵感迸发,正是商汤大装置团队在AI基础设施领域实现持续领先的关键所在。商汤大装置首席科学家林达华教授在深度学习和神经网络领域具有很高的学术地位和成就。林达华师从汤晓鸥教授,也是商汤联合创始人,在机器学习及计算机视觉领域的顶级国际会议与期刊发表近50篇学术论文。
“对于科学家来说,永远保持着好奇心,驱动我们的科研往前奋进。”盛世伟说,“期待未来能够让AI进入到千家万户,服务老百姓,在产业发展中提升生产力效率,这是我们追求的一个目标。”
作者:
文:王蔚摄影:张挺 陈彦锴 邢千里剪辑:沐多编辑:陈云峰责任编辑:王蔚
转载此文请注明出处。