太逼真了！英伟达造出新一代GAN，生成壁纸级高清人脸毫无破绽

百度首页

栗子晓查发自凹非寺

量子位报道 | 公众号 QbitAI

不敢相信，上面这些人脸，全都是假的。

是英伟达的AI生成的。

借用风格迁移的思路，团队为GAN创造了一种新的生成器。

连GAN之父Goodfellow老师也忍不住发推称赞优秀！

这个结构不需要人类监督，可以自动分离图像中的各种属性。这样，在或粗糙或精细的不同尺度上，人类便能自如地控制GAN的生成。

另外，英伟达的人脸生成模型，支持1024 x 1024的高清大图生成。毕竟，GAN从小吃的是高清数据集。团队还说，数据集很快就要开源了。

实际效果展示

人物自然，背景自然，边缘又自然。足以骗过我这个普通人类的肉眼了。

输入两张图，图A决定生成人物的性别，年龄，头发长度，以及姿势；一张决定其他一切因素：比如肤色、发色、衣服颜色等等。

这样，就可以把图B的一部分人物特征，迁移到图A上了：

不过，人脸的朝向和表情，还是A的。

就算人种发生剧烈变化，也丝毫不会违和。你看，把非裔人类的脸部特征“移植”给四位白种人，嘴唇的厚度、鼻子的形态，以及额头，都有明显的变化。

再来看看从不同尺度调节的效果吧。

这是粗糙尺度(Coarse Styles) ，也是三种尺度中最大规模的调整，会涉及脸部朝向的变化，脸型和发型也是在这里调整的：

然后看看中间尺度(Middle Styles) ，调整仅限于面部特征和发色发量了，姿势、发型、脸型都不会有明显变化：

再来就是精细尺度(Fine Styles) ，只是调整图像的配色，几乎不会给人物变脸了：

全新的生成器

我们前面说过，这个GAN不用人类监督，就可以自动分割图像里的各种部分。

经过训练，它就可以把这些部分，按照一定的方式组合到一起。

具体怎么组合呢：

这种新的生成器，像风格迁移算法一样，把一张图像，看做许多风格(Styles) 的集合。

每种风格都会在一个不同的尺度 (Scale) 上控制图像的效果：

粗糙(Coarse Styles) ：姿势、头发、脸型。中度 (Middle Styles) ：面部特征、眼睛。精细 (Fine Styles) ：配色。

三者组合在一起，才是最终的生成结果。

调节不同“风格”，就可以在不同尺度上调节人脸图片。

另外，这只GAN还可以自动把那些无关紧要的变化 (Inconsequential Variation) 剔除出去。

所谓无关紧要，就是说画面发生了变化，但看上去主角还是原来的主角。粗糙的噪音：如大尺度上的卷发程度。精细的噪音：更加精细的细节，如质地等。无噪音：没有特征的、像画画一样的样子 (Featurelessly “painterly” look) 。

相同图片，输入不同的噪音，效果就不一样。

人类也可以选择，每种Style的强度 (Strength) 多大。

选择高强度 (High Strength) 的话，生成的图像就会比较多样化，但生成坏图也会有一些。

如果是低强度(Low Strength) ，生成的图像之间不会有太多变化，但也几乎不会出现坏图。

从结构上来看，这个新的生成器是这样的：

传统的图像生成器仅通过输入层提供潜在编码（Latent Code），英伟达从一开始就舍弃了这种设计方案。

就像上图展示的那样，他们设计的新生成器先将输入从潜在空间Z映射到中间的潜在空间W，将映射网络生成结果输入到下一层。在生成网络g每次卷积运算之后，加入高斯噪声（Gaussian noise），也就是图像的随机变化。

图像在不同尺度上的“风格”，就是由上面的每个卷积层控制的，它实现了直接控制各层级的图像特征强度（Strength）。

从生成图像中的随机自动变化中。它可以无监督地从中分离出图像的“风格”。

发布更强人脸数据集

除了发布图像生成算法外，英伟达从Flickr中选取了7万张1024×1024分辨率的照片，形成了一个新的人脸数据集FFHQ（Flickr-Faces-HQ）。

它能提供了高度多样化、高质量的人脸数据，并且涵盖了比现有高分辨率数据集（如CelebA-HQ）更多的变化，比如更多佩戴眼镜、帽子的照片。

英伟达将在不久后公开提供此数据集，并放出源代码和预训练网络。

最后，给广大猫奴们送出福利。英伟达的图片生成器不仅能用于人脸，研究人员还用LSUN数据集造出了很多猫咪的图片。

你能看出它们都是假的吗？

举报/反馈

量子位

136万获赞 28.6万粉丝

追踪AI技术和产品新动态

鲲鹏计划获奖作者,北京极客伙伴科技有限公司,优质科技领域创作者

关注