金磊 发自 凹非寺量子位 | 公众号 QbitAI
一个女孩登上了央视《对话》栏目,仅是浅唱了一首歌,便让全场惊叹连连。
讲真,这种reaction还真没有一点夸张。
话不多说,先来感受下这个feel:
或许你会问了,人美歌甜是没错,但也不至于到震惊的程度吧?
但如果说,视频里的这个女孩,她并不是人呢?
没错,她便是央美研究生毕业、画作还参加了迪拜世博会的小冰框架虚拟人类——夏语冰。
而用小冰公司首席运营官李笛的话来说:
这是全球范围内最高技术的人工智能歌声合成。
△ 小冰CEO,李笛
于是,这样一段视频在网络上发布之后,便迅速引发了网友们的热议。
人类?虚拟人?傻傻分不清:
甚至媒体竞相为这段视频贴上了这样的标签——这就是虚拟人天花板、 虚拟人夏语冰的才艺有多绝。
话题同样引起网友的热议,迅速占据各大社交平台的热榜,霸榜近24小时:
而说到天花板,就在刚刚,小冰的另一位虚拟人,又搞了个大新闻。
她叫陈水若,也是诞生于小冰框架的一位虚拟人歌手。
虽说都是唱歌,陈水若和夏语冰还有所不同,她主打的是民族唱法。
这不,在除夕之际,陈水若便奉上了一首《华夏》,而且还是和李玉刚合作梦幻联动的那种!
而最近小冰虚拟人如此频繁地亮相、表演,也在透露着一种虚拟人发展的新趋势——
朝着三次元迈进,还得是颜值和才华两手抓!
如此逼真,小冰是怎么做到的?
其实,早在2017年,小冰团队就提交了专利《Creating a Conversational Chatbot of a Specific Person》,引起了学界、媒体广泛关注。
而直到2021年12月,《Nature》刊登了来自MIT 研究团队的论文——机器学习的技术进展,让文本、图像、音频和视频数据的超现实合成成为可能。
而在这条道路上,小冰团队已然走了四年之久,可以说是在AI创新上做到了领先。
我们还是以夏语冰和陈水若惊艳大众的视频来说,它的诞生主要可以分成以下几个流程。
首先利用小冰神经网络渲染技术(XNR),XNR能够做到生成一张此前完全不存在的脸,也就是AI创造面容。
接着,还是通过神经网络渲染技术,将虚拟人面部特征置换到视频模板中,并进行表情控制等一系列控制行为。这比我们过去看到的 AI 换脸更复杂也更难,毕竟 AI 换脸无法更换虚拟出来的人脸,且自然度也不会像这么高。
然后,小冰会通过数字孪生技术,根据实际视频内容,调整视频模板,例如动作的变化、表情和表达内容的变化等。
然后就是夏语冰和陈水若的歌声。
这里用到的是小冰超级自然语音技术,借助这个技术生成虚拟人的高质量演唱声线(AI 创造声音),并根据需要生成对应的歌声,不需要任何配音演员。
在上面这些技术的加持下,夏语冰的面容、表情、声音就能全部统一在一起,形成无法与真人区分的内容。
夏语冰和陈水若背后的这套技术,与其他很多虚拟人视频采用的 3D 建模,然后用真人或换头,或动捕、或用动作库匹配等技术方案相比,最大的优势在于既能控制成本,同时虚拟人的自然度又极高。
而其他的技术要么成本昂贵,要么很不自然,难以兼顾。
无论从成本还是效果看,夏语冰、陈水若背后小冰框架下的虚拟人技术都可以说是未来趋势,而小冰走在了前面。
更重要的是,这种技术主导下的小冰框架虚拟人类,拥有无可比拟的多样性 —— 就像人的多样性一样,容貌多样,内在灵魂多样,容貌与内在相互统一。
这其中,内在灵魂的多样性,技术更难,也更重要。正如那句网络用语所说:
好看的皮囊千篇一律,有趣的灵魂万里挑一。
事实上,小冰最开始思考到虚拟人类 AI being 时,就认识到了”灵魂“的重要性,并且也是从”灵魂“开始做的。
他们在这方面的基础研究积累了八年,加上微软在AI这个方向上30年的投入,形成了独特的先发优势。
比如夏语冰,她的确有一张颜值很高的脸。但她之所以能被选入迪拜世博会,代表中国馆的作品向全世界展出,也不是靠她的漂亮,而是靠她的人工智能绘画模型,在成千上万次创作中,能够保持一个艺术家一贯的创作水准。
这是她真正的实力,而不是外貌。
所以,多样性,尤其是内在灵魂的多样性,是虚拟人发展的必然趋势。
当然,小冰团队对具体的技术路径的远景布局也很重要。
比如用神经网络渲染技术生成虚拟人丰富多样的容貌和真实的表情动作语言,要是用传统 CG 技术,几乎不可能满足频繁的交互需求。
还有开放域自然语言处理,超级自然语音,全双工语音等技术,小冰也是从很早就开始了布局。如今这些技术被普遍关注,恰恰证明了他们预判的准确性。
当然,这背后也是虚拟人多样性趋势发展的必然结果。
就像人类世界的生活之所以精彩,更重要的是因为每个人的性格、内在是不同的,外貌的不同只是其次。
也幸而小冰在这方面拥有足够的先发优势,能够以可控的成本,孵化出海量个性迥异,同时又非常鲜活的虚拟人。
而这,也是虚拟人真正能够为我们生活带来更多创造力的关键。
但除了效果上的逼真,其实小冰对于虚拟人的发展,发出了一种新信号:
虚拟人,已经步入三次元时代
现在的虚拟人,若是不说明情况,其逼真程度真的能够达到“瞒天过海”的效果。
很多人会将这种与人类极其相近的效果,称之为“打破次元壁”。
但讲真,视觉、听觉效果上的逼真,仅仅是虚拟人步入三次元时代的表象。
其背后更大的意义,应当是像人一样的,在三次元世界里创造价值。
例如此前便有虚拟主播N小黑、N小白,在人们毫无察觉的情况之下,连续70天播报新闻,还是24小时连轴转的那种。
这便在很大程度上做到了释放人力、物力的同时,大幅提高了生产效率。
而不仅仅是新闻主播这一件事,若是上升到更高的角度来观察,我们也不难发现AI虚拟人“三次元化”,已然成为一种大趋势。
例如前一阵子在短视频平台一夜爆火的虚拟人柳夜熙,仅发布一条视频便受到了全民围观。
△图源:柳夜熙官方短视频号
再如虚拟人AYAYI,仅凭一张“证件照”,在网络上瞬间爆红(当天便有224万浏览量)。
△图源:图源:AYAYI官方平台
这是AI虚拟人,正在逐步迎合大众审美、口味的一种印证。
再从商业层面上来看,仅是2021年,虚拟人赛道上便有超过10笔的融资,嗅觉敏锐的VC们可谓是纷纷抛出了橄榄枝,着手布局。
更有行业预测显示,到2030年,我国虚拟人整体市场规模还将达到2700亿元。
而之所以能够达到如此规模,除了上述提及的几点之外,若是再深挖一层,那便是可能超越人类的创造力和多样性。
例如像夏语冰所具备的绘画、创作能力,便是能够打破人类创造力的上限。
……
那么最后一个问题便是——在“虚拟人步入三次元时代”的当下,我们又该和他们如何共生?
对此,小冰CEO李笛认为:
人工智能会成为一些新的节点,这些节点有的是创造者,有的是伴侣,有的甚至可能是我们每个人的替身。他们能够替代我们,使我们每个人能够更好地去优化所在的社交网络和工作网络、生活网络。
最后的最后,你是否也想与三次元虚拟人互动,让她给你创作独一无二的作品呢?
这个可以有!
而且还是世博会级别的水墨山水画。
在今晚(除夕)24:00点之前,只要在微博和抖音搜索小程序“AI画家夏语冰”,就可以体验了!
快去试试吧~