世界顶级人工智能企业OpenAI发布了文生视频大模型:Sora。文生视频,意思是通过文字生成视频文件。
Sora一经发布,立即在国内外引发炸裂性轰动。Sora主要有3个关键特点:60S超长时间,单视频多角度以及物理世界模拟。人工智能生成视频,技术原理在于,首先通过AI理解文字,然后基于文字生成图片。生成图片之后,再通过对文字的理解,不断地基于现有图片进行推理出下一张图片。这个过程中,根据真实的物理世界进行挑选,再把这些图片进行连续播放,这样就形成了视频。
因为推理过程中会有偏差,所以视频越长越容易出错,难度越大。如果要实现多角度,则需要推理出多角度变换下,图片会呈现怎样的光影,色彩,动作的变化。同时,物体的移动,必须要遵从物理世界的原理,比如倒影,速度等等。
在Sora的视频中,这些因素都照顾得很完美。在发布之后,OpenAI的Sam Altman亲自下场给网友演示,网友随便提供一段文字,奥特曼当场给生成视频。这些视频,不仅色彩丰富,而且细节详尽,同时人物与动物基本可以做到与真实世界的几乎一致。
这种视频平台,直观上,首先会在电影与媒体行业产生革命。现在的动画电影,本质上就是画师根据剧本,一张一张画出来,然后拼接做成特效。每年春节都会火爆,持续放映了十年,每年爆赚的《熊出没》系列,就是这样制作。
这几年中国重工业电影的巅峰《流浪地球》系列,也是由大量通过电脑特效画图拼合而成。这些电影特效极其耗费资源与人力,成本也极其高昂,比如《流浪地球2》的制作成本,大概为5亿。如果是国外的一些特效大制作电影,价格更高。
Sora的出现,通过一个文生视频平台,每次可以生成60S视频。如果能够继续优化下去,每个60S,能够相互组合连接,再加上有好的剧本,一个精干的小团队就能够做出堪比《熊出没》,《流浪地球》系列的电影。
按照OpenAI的迭代速度,估计5年内,就能够达到以上描述的效果,这对于国内外的电影行业,将是颠覆性的。
说完电影行业,下一个要颠覆的就是传媒行业。
因为文本生成的视频是如此的逼真跟充满细节,那么很有可能可以通过这个平台制造一些在现实世界没有发生过的视频,这样就会造成人们接受信息的混乱,这会极大影响人们对于真实信息的获取。
人们不知道真实世界到底是怎样的。
人们获取的信息会影响人们的认知,比如抖音一些充满对立的短视频会引起社会极大的反响。
等到Sora平台普及,人们在网络平台看到视频,会感觉真假难分,在特殊时期,认知混乱会引发社会的混乱。
再进一步,人工智能如果运用在军事上,可以通过大量遥感图片,推理出军事的部署方向与部署方式。未来战争,人工智能落后的一方,也会成为明牌,所有的措施、手段、战术都在对手的预判范围内,落后方容易成为吊打的对象。
现在被掐脖子的芯片行业,并不能通过大量资金投入在几年时间迅速赶上,而是需要长时间培育。人工智能还在发展,现在就需要引起重视。
在人工智能领域,中国必须抓紧赶上,以防遭到对手意想不到的降维打击。