潮新闻 记者 谢丹颖
陆奇都说他跟不上大模型时代的狂飙速度了。
“我实在不行了,论文实在是跟不上,代码实在是跟不上。Just too much(太多了)。”这位中国AI布道人,也是中国关于大模型最有发言权的人之一,这样评价道。
今年以来,整个世界因ChatGPT进入快进状态。几乎每天都有人工智能新进展传来。一众科技大厂、创业公司陆续公布相关进展,加速入场。
争相涌现的国产大模型,特别是大厂基于投入、算力、大数据等方面的优势,为中国自主大模型的发展带来了广泛的可能性。
中国版ChatGPT发展何样?国产大模型含金量如何?我们是否能实现“弯道超车”?在国内首个大模型百度“文心一言”“飞”了一个多月后,记者整合相关资料,尝试寻找这些问题的答案。
玩家有谁?
忽如一夜春风来。
3月16日,“文心一言”问世,10年在AI砸了千亿的百度,由此拉开了国内大模型混战的序幕。眼下,除了阿里、腾讯、华为等大厂,李开复、王小川、李志飞等业界大牛亦纷纷宣示入局……据不完全统计,国内宣布要做大模型的已超过30家。或琢磨着如何快速推出自己的国产大模型抢占市场,或在以算力为代表的底层基础设施层发力,堪比“神仙打架”。
据中信建投的一份“会议纪要”,过去几个月,他们对多家一线互联网企业进行调研发现:这次是全面的一把手工程,不管是BAT还是字节、华为,均是创始人亲自督战,对大模型团队全力支持。上一次出现如此情景,还是2009年移动互联网来临的时候。
竞逐大模型并非易事。以ChatGPT为例,根据Open AI公开数据,早在2020年训练GPT-3模型时,用到的参数数量和数据训练量便高达1750亿和45TB,消耗算力3640PF-days,即按每秒一千万亿次计算,需运行整整3640天。更不必说参数数量持续扩大的GPT-4模型。庞大的数据量及算力决定了搭建大模型为典型的重资金产业。面对这一“烧钱”赛道,我国仅有大厂能玩?
“方向指向了云。”近日,“FORCE原动力”大会上,火山引擎总裁谭待说。
作为字节跳动旗下年轻云平台,火山引擎具备天然的先发优势——不仅有资金、技术、算力资源,甚至还有应用场景。但与自己做大模型的其他云不同,火山引擎主要服务客户做好大模型。类似微软云平台Azure和OpenAI,通过大厂云平台的赋能,“客户只需专注创新、做好模型本身”,给很多初创公司带来了机会。
火山引擎总裁谭待宣布支持“多云多模型”的未来架构
但囿于国内生态,搭建在大模型与产品之间,类似火山引擎的处于中间架构层的创业公司,几乎真空。就好比吃一顿饭,必须从挖地、种菜开始。国内落地实现的壁垒依然很高,形成一种大模型大厂才玩得起的共识。
为何要争?
当问及中国会不会出现一个OpenAI?百度创始人李彦宏直接回答,“基本不会”“没有必要再重新发明一遍轮子”。在他看来,ChatGPT技术本身并不是吸引各家大厂入局的关键,而是其背后“在应用层,将会出现的全新的、十倍于现在微信和抖音的创业机遇”。
就应用层来说,不同于To C的国外大模型,我国目前大模型的主要应用场景都在B端。如华为“盘古”强调在矿山、电力等场景的应用,阿里“通义千问”的典型应用场景包括电商跨模态搜索、AI辅助设计、医疗文本理解等,或者像商汤的“日日新SenseNova”,为自动驾驶、机器人等通用场景任务提供感知和理解能力支持。
To B的行业特点导致中国的AI大模型并不需要做到非常大的参数规模,甚至于当ChatGPT出现后,国内讨论的一个重要方向,是如何将已有的大模型规模“做小”,从而应用到具体的行业上。To B和To C两种完全不一样的发展路径,也将国内和国外的AI大模型引向了两种完全不同的发展方向。
在我国,大模型不仅是聊天软件,更是生产力工具,着重以更小的参数,做更有效率、更适合垂类的场景已成共识。
在近期举行的阿里云峰会上,“所有产品都值得用大模型重做一次”,张勇称所有产品未来都将接入“通义千问”大模型,全面升级;刘炽平在腾讯财报会上强调,生成式AI可成为已有业务的 “倍增器”,也可帮助开拓新增长线;任正非更是认为,ChatGPT 把计算、管道流量撑大,华为产品就有了机会。
这意味着,大模型之于今天,就好比移动互联网时代的安卓和IOS系统,也将加速促进产业数字化的发展,对生产、生活方式进行下一次重塑,带来更大空间的新领域。如果不能取得先机,未来就有可能会影响现有的整个商业模式,甚至被颠覆。
来源:视觉中国
弯道超车?
算力、算法、数据是AI大模型研发的三大要素。
相比于To C,To B的大模型研发具有天然优势——瞄准垂直行业场景落地,不仅可以持续获得各个行业里“好的原材料”(数据),也使更多的研发人员有机会深入到一线,用大模型去解决实际问题(应用场景),从而在工程化、产品化、场景化上不断迭代,最终与技术底座形成飞轮效应,走向商业化的正循环。
但所有应用,究其根本,依赖于大模型而存在。就像PC互联网时代,所有的桌面应用都基于Windows开发,移动互联网时代所有APP又都基于安卓或IOS系统一样。而目前多数国产大模型,在算法方面和GPT-3架构基本类似,追随OpenAI的脚步实践,由此在受制于英伟达A100 GPU 迭代速度本就不如人的情况下,差距越拉越大。
以百度“文心一言”为例,在研发阶段,“与ChatGPT差距是40分的水平,一个月能追得上”。李彦宏曾明言,百度有信心在综合能力上,迅速追上甚至超过ChatGPT。然而一个月过后,经过再次测试,发现差距反而拉大了——虽然,据4月25日百度智能云召开的技术交流会,“文心一言”开启内测一个月以来,已完成4次技术版本升级,相较最初版本推理效率提升了10倍,模型算力利用率提升了1倍,在模型性能和成本上实现了大幅优化,大模型推理成本降为原来的十分之一。
阿里云也坦承,目前“通义千问”与ChatGPT仍有差距,“ChatGPT属于各方面都领先的地位”。
如何追赶?
百度一直强调,它是全球为数不多在芯片层、框架层、模型层和应用层四层进行全栈布局的人工智能公司。有近水楼台的智能云、充裕且体系健全的算力、运行平稳的深度学习框架、一群具有多年AI开发经验的人才,最重要的,还有一个日活数十亿搜索引擎来提供中文的本地化数据——某种程度上,距离大模型的完成形态,具备了大多数的硬条件。
国内做出大模型的大厂也都类似,有一套自己的训练架构,在自己的生态中形成闭环。但这也在一定程度上反映了整个国内开源的生态不够成熟。
对此,复旦大学邱锡鹏提出,我国的大模型得“开源”。在他看来,OpenAI做ChatGPT的时候,不需要分心做其他东西,只需专注于做模型,有微软帮它做算力,还有一家开源公司帮它做部署,也有专门的公司做数据清洗。“生态促使它发展非常快。”邱锡鹏说,“而国内每家公司什么都要做。”这就产生一个问题,每家都做不大,每个都做自己的。囿于有限的数据、算力、金钱,容易重复“造车轮”,一直做一些很基础、重复性的事情。
邱锡鹏表示:“如果有一个统一的语言、统一的基座,下面对接一下国产的算力,做好一份接口,大家就都可以来用,能够去促进生态链的建设,使得整个中国的AI往前进一步发展。”
此外,AI从来不只是技术、算力、人才的角逐,更是国家战略的角力。4月份以来,网信办发布了《生成式人工智能服务管理办法(征求意见稿)》,科技部发起成立“国家超算互联网联合体”,及从去年到现在出台的一系列有关数字经济、数据要素相关政策,都表明了国家的关切与肯定。
也就是说,相对海外对大模型发展的矛盾态度,中国对整个数字经济及人工智能的发展,是持一贯的支持态度,这为中国大模型的未来,加上了一个至关重要的确定性。
(文章有参考钛媒体、澎湃、虎嗅等公开内容)
“转载请注明出处”