全身DeepFake技术即将来临，问责制建立迫在眉睫

2019-09-28 09:49

在俄罗斯小说家Victor Pelevin的赛博朋克小说《Homo Zapiens》中，一位名叫Babylen Tatarsky的诗人在苏联解体后、俄罗斯经济崩溃之际，被一位大学老友聘为广告文案撰稿人，来到了莫斯科工作。Tatarsky有着巧妙的文字游戏天赋，他很快就在公司里一路青云直上。在那里他发现，像当时的俄罗斯总统Boris Yeltsin这样的政治家和重大政治事件实际上都是虚拟的模型。而现如今，随着越来越复杂的DeepFake产品的出现，似乎Pelevin在小说中描绘的情境正在慢慢实现。

在DeepFake（或被研究人员称之为“合成媒体”）领域内，人们的注意力主要集中在可能对政治现实造成严重破坏的AI换脸之上，以及其他能够模仿一个人的写作风格和声音的深度学习算法上。但合成媒体技术的另一个分支正在迅速发展：针对全身的DeepFake。

2018年8月，加州大学伯克利分校的研究人员发布了一篇题为《每个人都会跳舞》的论文及相关视频，展示了深度学习算法如何将专业舞者的动作转移到业余舞者身上。虽然看起来很原始，但这表明机器学习研究人员正在处理更困难的任务，即制造全身范围的DeepFake。同样在2018年，德国海德堡大学Bjorn Ommer博士领导的一个研究团队发表了一篇关于训练机器人真实呈现人类动作的论文。今年4月，日本人工智能公司Data Grid开发了一种人工智能，可以自动生成不存在的人的全身模型，这可以在时尚和服装行业拥有实际的应用。

虽然很明显，全身DeepFakes有一些有趣的商业应用，比如DeepFake舞蹈应用，或者在体育和生物医学研究等领域，但在如今因造谣和假新闻而分化的政治气候之下，恶意使用案例正日益受到关注。目前，全身DeepFakes还不能完全愚弄人类的眼睛，但就像任何深度学习技术一样，这一领域也会在不远的将来取得进步。这只是一个时间问题，即全身DeepFake多久会变得与真人难以区分。

完全人体合成

为了制造DeepFakes，计算机科学家们使用一种生成式对抗网络（简称GANs）。这些网络通常由两个神经网络组成，一个是合成器或生成网络，另一个是检测器或判别网络。这些神经网络会在一个经过改进的反馈回路中工作，以创建真实的合成图像和视频。合成器从数据库创建图像，而后者从另一个数据库工作，确定合成器的图像是否准确和可信。

第一次恶意使用DeepFakes的案例发生在Reddit上，Scarlett Johansson等女演员的脸被替换到色情演员的脸上。Fast.ai的Rachel Thomas表示，目前存在的95%的DeepFakes都是色情用例，目的是用虚假的性行为骚扰某些人。Thomas说：“有些DeepFakes视频并不一定会使用非常复杂的技术。但是，这种情况正在开始改变。”

Farid指出，中国的DeepFake应用Zao说明了这项技术在不到两年的时间里发展得有多迅速。

Farid说：“我看到的那些来自Zao的视频看起来非常非常好，而且有很多人工的改良在其中，使之看起来就像电影版本中脸部动作的那种。技术正在不断的发展，要让DeepFake作为一个应用进行大规模的工作，并让数百万人下载到手机上，这是很困难的。Zao的成功标志着DeepFake的成熟。”

“有了DeepFake的图像和视频，我们基本上实现了CGI技术的民主化。我们已经把它从好莱坞电影公司的手中夺过来，交给了YouTube的视频制作者们。”

Bj?rn Ommer，海德堡大学图像处理合作实验室（HCI）和科学计算跨学科中心（IWR）的计算机视觉教授，领导着一个研究和开发全身合成媒体的团队。与该领域的大多数研究人员一样，该小组的总体目标是理解图像，并教机器如何理解图像和视频。最终，他希望团队能够更好地理解人类是如何理解图像的。

Ommer说：“我们已经看到了合成的化身，不仅是在游戏行业，而且在许多其他领域创造了收入。特别是对我的团队来说，我们考虑的是完全不同的领域，比如生物医学研究。我们想要更详细地了解人类甚至是动物，我们希望随着时间的推移，扩大到一些与残疾相关的行为等等。”

在合成人脸和全身的过程中存在着关键的差异。Ommer说，人们已经对人脸合成进行了更多深入的研究。这有几个原因：首先，任何数码相机或智能手机都有内置的人脸检测功能，这种技术可以用于检测微笑或识别正在看节目的观众。这样的应用可以产生收益，从而带来更多的研究。但是，正如Ommer所说，它们也导致了“大量的数据集组装、数据管理和人脸图像获取，这些都是建立深度学习研究的基础。”

第二，对Ommer来说更有趣的是，虽然每个人的脸看起来都不一样，但是当把脸和整个人的身体相比较时，并没有太大的可变性。“这就是为什么对面部的研究已经到了一个阶段，我想说，相对于面部合成技术来说，人体存在着更多的可变性，处理起来更加复杂，如果你朝着这个方向前进，还需要学习更多。”

Ommer不确定什么时候完全合成的身体会达到他和研究人员想要的质量。然而，从恶意DeepFake的成熟用例来看，Ommer指出，即使没有深度学习计算机视觉智能、人工智能或其他技术所创造的模仿，人类也已经很容易被欺骗。慢镜头拍摄的Nancy Pelosi视频让这位众议院议长显得醉醺醺的。在他看来，这段视频表明，这种带有非常简单转折的DeepFakes的出现，可能会让某些社会阶层信以为真。

Ommer说：“但是，如果你想让更多的人相信DeepFake的图片或视频，还需要几年的时间。”Ommer认为未来，全身DeepFake将变得更便宜和更普遍。“研究社区本身已经朝着一个方向发展，这一点得到了很多的赞赏。它们对我们所看到的算法容易获得的稳定进展负有责任，比如Github等。所以，你可以从一些论文中下载最新的代码，然后，在不了解隐藏内容的情况下，直接应用它。”

感到“无力和麻痹”

并不是每个人都能创造出一部“轰动一时的DeepFake”。但是，Ommer说，随着时间的推移，金钱将不再是算法资源方面的问题，软件的适用性也将变得容易得多。Farid说，有了全身DeepFake，恶意制造者就可以利用DeepFake技术让静止图像直接对着摄像机说话，让目标做他们永远不会做和说的事情。

2016年美国大选期间假新闻的爆炸，以及2017年DeepFake的兴起，激发了调查记者Van de Weghe对合成媒体的研究。2018年夏天，他开始在斯坦福大学设立奖学金，研究打击恶意使用DeepFake的方法。

Van de Weghe说：“受威胁最大的不是大人物、大政客和大名人，而是像你我这样的普通人、女记者，还有一些边缘化的群体，他们可能或已经成为DeepFake的受害者。”

两周前，荷兰新闻主播Dionne Stax发现自己的脸被DeepFake到了一名色情女明星的脸上，这段视频被上传到PornHub网站并在互联网上传播。尽管PornHub很快删除了这段视频，但Van de Weghe说，她的声誉已经受到了损害。

全身DeepFake可能会为记者行业带来怎样的影响呢？Van de Weghe提到了2018年美国有线电视新闻网白宫首席记者Jim Acosta的例子。在阴谋论网站Infowars编辑Paul Joseph Watson上传的一段视频中，Acosta似乎咄咄逼人地推搡着一名试图拿他麦克风的白宫工作人员。由C-SPAN播出的原始片段与Watson上传的有明显不同。Infowars的编辑声称他并没有篡改视频，并将出现的任何差异归因于“视频压缩”。但是，正如《独立报》在编辑时间轴上对视频进行的并排分析所显示的，Watson的视频缺少了原视频的几帧。全身DeepFake就像编辑视频帧一样，可以改变事件的真实性。

Deeptrace Labs成立于2018年，是一家网络安全公司，正在开发基于计算机视觉和深度学习的工具，以分析和理解视频，尤其是那些可以被人工智能操纵或合成的视频。该公司创始人Giorgio Patrini曾在阿姆斯特丹大学德尔塔实验室从事深度学习的博士后研究。他说，几年前，他开始研究预防或防范未来合成媒体滥用的相关技术。

Patrini认为，由合成人体、人脸和音频组成的恶意DeepFake，将很快被用来攻击记者和政客。他指的是一段深度伪造的色情视频，视频中印度记者Rana Ayyub的脸被换到了一名色情女演员的身体上，这是一场虚假信息运动的一部分，目的是抹黑她的调查报道。此前，她公开要求对强奸和谋杀一名8岁克什米尔女孩的行为进行司法审判。今年3月，Deeptrace Labs对加蓬总统Ali Bongo的DeepFake进行了调查。尽管这个非洲国家的许多人认为Bongo一动不动的脸、眼睛和身体暗示着一个深层的骗局，包括加蓬军方在内的许多人认为Bongo的脸、眼睛和身体都是假的，加蓬军方基于这一信念发动了一场失败的政变。Patrini表示，他不相信总统的视频是合成的。

Patrini说：“我们找不到任何理由相信这是一件DeepFake。我想，这后来被证实，总统还活着，但是他中风了。我想在这里指出的重点是，一个视频是否是假的并不重要，重要的是人们知道它会在公众舆论中引发怀疑，在某些地方还可能引发暴力。”

最近，Van de Weghe了解到，一名政党运营人员接触了一位最受欢迎的DeepFake创作者，要求他利用DeepFake伤害某个人。在未来，这种定制的DeepFake可能会成为大生意。

Van de Weghe说：“用DeepFake可以赚钱，人们会点开看的。所以，一个政府不必造假，他们只要联系一个专门制造DeepFake的人就可以。”

《华尔街日报》最近报道称，一家英国能源公司的首席执行官被骗，将24.3万美元转入一家匈牙利供应商的账户。这位高管说，他相信自己是在和老板谈话，他的老板似乎已经批准了这笔交易。现在，这位首席执行官认为他是一场“网络钓鱼”音频深度诈骗的受害者。Farid认为，DeepFake的其他欺诈性金融计划（可能包括全身DeepFake）只是时间问题罢了。

Farid说：“我可以制作一个贝佐斯的DeepFake假视频，操纵他说亚马逊的股价正在下跌。想想看，做空亚马逊股票能赚多少钱。当你控制它的时候，伤害已经造成了。现在再想象一下一个民主党候选人说一些非法或不敏感的话的视频，你认为在选举前一天晚上这样的行为可以左右成千上万选民的投票吗？”

Farid认为，社交媒体和DeepFake视频的结合，无论是面部还是全身，都很容易造成大破坏。社交媒体公司基本上无法或不愿意调整其平台和内容，因此DeepFake可以像野火一样蔓延。

他表示：“当你把创建DeepFake内容的能力与在全球发布和消费内容的能力结合起来时，就会出现问题。我们生活在一个高度分化的社会，原因有很多，人们会把意见相左的人往坏处想。”

但是对于Fast.AI的Thomas说，在新的网络冲突中，DeepFake几乎没有必要对政治进程产生负面影响，因为政府和行业已经在与书面形式的虚假信息作斗争。她说，这些风险不仅与技术有关，还与人为因素有关。社会两极分化，美国的大片地区不再有他们可以信任的真理来源。

这种不信任可能会让有政治动机的DeepFake创造者有机可乘。正如隐私学者Danielle Citron所指出的，当DeepFake被揭穿时，它可以向那些相信谎言的人暗示，谎言是有一定道理的。Citron称之为“骗子的红利”，Farid认为，全身DeepFake技术的进步将使这类邪恶问题变得更糟。受到《每个人都会跳舞》等大学研究和Zao等企业的推动，这项技术正在快速发展，货币化也只是时间问题。

Farid说：“一旦你能做全身动作，就不再只是脑袋说话了，你可以模拟人们做爱或杀人。未来就在眼前吗？不一定。但最终，也许就是一两年后，人们就能做全身程度的假动作，这并不是没有道理的，而且技术会非常强大。”

1 2 下一页>