从奥巴马假视频到ZAO，换脸和人脸检测技术发生了什么？-爱云资讯

近期，通过数字操纵（尤其是 DeepFake 方法）生成包含人脸信息的假图像和假视频，已成为公众关注焦点。

「DeepFake」是一项基于深度学习的技术，通过把图像或视频中的人脸换成另一个人的脸，来创建假图像/视频。

该词最早出现于 2017 年底，一位名为「deepfakes」的 Reddit 用户开发了一种机器学习算法，该算法可将名人的人脸换到色情视频中。除了伪造的色情作品以外，还有一些杀伤力更强的假内容应用方式，比如假新闻、金融诈骗等。

因此，原本专注于通用假图像和假视频检测的研究领域重新焕发了生机，转而将更多的精力放在如何检测图像和视频中的人脸操纵上。研究者对人脸操纵检测领域的诸多努力是基于有关生物特征识别反欺骗的先前研究和数据驱动的现代深度学习技术展开的。学术顶会上相关研讨会的数量越来越多，NIST 和 Facebook 又分别主办了 MFC2018 和 DFDC 等竞赛，这些都表明社区对假人脸检测的兴趣不断增长。

之前，因缺乏复杂编辑工具和领域专业知识、操作过程复杂且耗时，人脸操纵的数量和逼真度受到了局限。例如，该领域的早期研究《Video Rewrite: Driving Visual Speech with Audio》利用不同的音轨修改说话人的嘴唇运动（具体是通过将音轨的声音和说话人的人脸形状连接起来实现的）。

而现在，自动合成并不存在的人脸或者操纵图像或视频中的真实人脸变得更加容易，这取决于以下几个因素：1）大型公共数据的可获取；2）深度学习技术的进化（这免除了人工编辑步骤）。

《Synthesizing Obama: Learning Lip Sync From Audio》展示了之前技术的进化版，该研究生成了高质量的奥巴马演讲视频，目标视频中奥巴马原本的发言已被改变。

现在，最逼真的人脸操纵技术已经取代了上述研究所使用的方法，它们将 CNN 与 GAN 结合起来。因此，ZAO和 FaceApp 等开源移动应用的发布，使得任何人都可以创建假图像和假视频。研究社区对这些日益复杂和逼真的操纵内容作出了回应，目前他们正付出巨大努力来改进人脸操纵检测方法。

本文对人脸操纵及检测技术进行了综述，首先我们来看人脸操纵的类型。

人脸操纵的类型

根据操纵的级别，人脸操纵技术可分为四类：人脸合成、换脸、人脸属性操纵和人脸表情操纵，参见下图 1：

图 1：每个人脸操纵类别的真假图像示例。

接下来我们按照从高级到低级的顺序，介绍这四种人脸操纵类型：

人脸合成：通常利用强大的 GAN（如近期的 StyleGAN 方法）创建完全不存在的人脸。这些技术获得了惊人的结果，其生成的高质量人脸图像栩栩如生。图 1 展示的人脸合成样本即通过 StyleGAN 生成；

换脸：即将一个人的脸换成另一个人的脸。该领域通常采用两种不同的方法：1）经典的计算机图形学技术，如 FaceSwap；2）新型深度学习技术 DeepFake，如近期的移动应用 ZAO；

人脸属性操纵：即修改人脸的某些属性，如发色、肤色、性别、年龄、是否戴眼镜等。该操纵过程通常使用 GAN 完成，如 StarGAN。该类型的典型示例是流行的移动应用 FaceApp；

人脸表情操纵：即修改人脸表情，如将一个人的面部表情迁移到另一个脸上。最流行的技术之一是 Face2Face，该技术可实时进行。近期方法展现出巨大潜力，可以生成高质量的视频，上述视频中人物（如奥巴马）的发言已被改变。

人脸合成

相关的操纵技术和公共数据库

下表 1 总结了人脸合成研究中主要使用的公共数据库。必须强调的是这些数据库中不包含真实人脸图像样本。该领域研究者通常使用常见公共数据库中的真实人脸图像来训练系统，如 CelebA [23]、FFHQ [19]、CASIA-WebFace [24] 和 VGGFace2 [25]。

表 1：人脸合成领域的公共可用数据库。

从奥巴马假视频到ZAO，换脸和人脸检测技术发生了什么？

相关文章

人工智能技术

人工智能公司

人工智能硬件

人工智能产业