在俄罗斯小说家维克多·佩雷温(Victor Pelevin)的网络科幻小说《智人》(Homo Zapiens)中,名叫巴比伦·塔塔斯基(Babylen Tatarsky)的诗人被大学老友招募,前往莫斯科担任广告撰稿人。凭借其在文字方面的聪明天赋,塔塔斯基迅速爬上了公司高层,他在那里发现,当时有很多事情实际上都是虚拟模拟的结果。而随着越来越复杂的深度伪造(Deepfake)应用出现,让人不禁觉得佩雷温的设想似乎正在慢慢变成现实。
图:加州大学伯克利分校研究人员发布的《人人皆为舞王》论文和视频,展示了深度学习算法将专业舞者的动作转移到业余爱好者身上的场景
在深度伪造领域,或者研究人员所谓的“合成媒体”领域,大部分注意力都集中在可能对现实造成严重破坏的换脸以及其他深度学习算法带来的危害上,例如模仿某人的写作风格和声音。但是合成媒体技术的另一个分支正取得快速进步,即人体深度伪造。
2018年8月,美国加州大学伯克利分校的研究人员发布了名为《人人皆为舞王》(Everybody Dance Now)的论文和视频,展示了深度学习算法如何将专业舞者的动作转移到业余爱好者身上的场景。虽然这种技术依然处于早期阶段,但它表明机器学习研究人员正在应对更困难的任务,即创建全身深度伪造视频。
同样在2018年,由德国海德堡大学图像处理合作实验室(HCI)和科学计算跨学科中心(IWR)的计算机视觉教授比约恩·奥默尔(Bj?rn Ommer)博士领导的研究小组,发表了一篇关于教授机器以逼真形态渲染人类身体运动的论文。今年4月,日本人工智能(AI)公司Data Grid开发了一种AI应用,它可以自动生成不存在的人的全身模型,并可以将其应用到时尚和服装行业。
虽然很明显,全身深度伪造技术具有有趣的商业应用潜力,如在深度伪造舞蹈视频或体育和生物医学研究等领域,但在当今社会中,恶意使用案例越来越令人担忧。目前,全身深度伪造技术还不能完全愚弄人类的眼睛,但就像任何深度学习技术一样,它正慢慢取得进步。全身深度伪造还需要多久就能变得与现实无法区分?这可能只是时间问题。
合成整个人体
为了创造深度伪造视频,计算机科学家需要使用生成性对抗网络(GANS)。这是由两个神经网络组成的,分别是合成器或称为生成网络,以及检测器或称鉴别网络,这些神经网络在精炼的反馈回路中工作,以创建逼真的合成图像和视频。合成器利用数据库创建图像,而后者从利用其他的数据库,确定合成器给出的图像是否准确和可信。
第一次恶意使用深度伪造技术出现在Reddit上,像斯嘉丽·约翰逊(Scarlett Johansson)这样的女演员的脸被换到色情演员身上。Fast.AI公司的雷切尔·托马斯(Rachel Thomas)表示,当前95%的深度伪造旨在用合成色情行为图像骚扰某些人。他说:“这些深度伪造视频中,有些并不一定使用了非常复杂的技术。但是,这种情况正逐渐发生改变。”
达特茅斯大学计算机科学系主席、专门研究打击视频伪造的图像取证专家哈尼·法里德(Hany Farid)指出,深度伪造应用Zao说明了这项技术在不到两年的时间里发展的速度有多快。法里德说:“从Zao身上,我发现这种技术已经变得非常好,并且抹掉了很多人工痕迹,比如电影版本中的脸部闪烁问题。虽然情况正在改善,但将其大规模运行,下载给数百万人,依然很难。这也正是深度伪造技术成熟的标志。”
海德堡大学的奥默尔教授领导着一个研究和开发全身合成媒体的团队。与该领域的大多数研究人员一样,该团队的总体目标是理解图像,并教授机器如何理解图像和视频。最终,他希望团队能够更好地理解人类是如何理解图像的。
合成面部和整个身体的过程之间存在着关键性差异。奥默尔说,对人脸合成已经进行了许多研究,这其中有几个原因:首先,任何数码相机或智能手机都有内置的面部检测技术,这项技术可用于微笑检测等任务,或用于识别观众正在看的人的身份。这样的用例可以产生收入,以支持更多的研究。但是,正如奥默尔所说,它们也导致了“大量的数据集组装、数据整理和获取面部图像,这些都是深度学习研究的基础。”
其次,也是奥默尔更感兴趣的,虽然每个人的脸看起来都不同,但当把脸与整个人体进行比较时,它的变化可能更小。奥默尔解释称:“这就是为何对脸部的研究已经到了瓶颈阶段的原因,与整个人体相比,脸部研究已经十分透彻,但身体有更多的可变性,处理起来也更复杂。如果你在朝那个方向研究,你会学到更多的东西。”
奥默尔不确定何时完全合成的身体将具有他和研究人员想要的质量。然而,从恶意深度伪造技术的日益成熟来看,奥默尔注意到,即使没有深度学习计算机视觉智能、AI或其他技术创建的虚假图像或视频,人类非常容易受到欺骗。美国众议院议长南希·佩洛西(Nancy Pelosi)放慢速度的视频让她看起来像是喝醉了酒。这段视频向奥默尔表明,这种简单扭曲的深度伪造技术即将出现,并可能会被某些人所利用。
奥默尔说:“但是,如果你想让它产生更大的吸引力,可能还需要几年的时间,那时全身和其他深度伪造技术将变得更便宜,更普遍。研究社区本身已经朝着这个方向前进,他们需要为我们看到的这种稳定进步负责,算法很容易获得,比如在GitHub上等等。所以,你可以从某些论文中找到可以下载的最新代码,然后在没有太多知识的情况下,应用它即可。”
改变事实真相
并不是每个人都能创造出深度伪造行业的“重磅炸弹”。但是若给予更多的时间,金钱将不再是限制计算资源的问题,软件的适用性也将变得更容易。法里德称,有了全身深度伪造技术,恶意的创作者将能够使用深度伪造技术的典型静态人物直接对着摄像头讲话,指示目标去做他们永远不会去做的事情,或说他们不可能说的话。
随着2017年深度伪造技术的崛起,调查记者、佛兰芒广播公司驻外记者汤姆·范德韦格(Tom Van De Weghe)开始研究合成媒体。2018年夏天,他开始在斯坦福大学建立研究奖学金,以研究打击恶意使用深度伪造技术的方法。他说:“受威胁最大的不是大人物,而是像你、我、女记者这样的普通人,以及某种程度上的边缘群体,他们可能成为或已经成为深度伪造的受害者。”
两周前,荷兰新闻主播迪翁·斯塔克斯(Dionne Stax)的相关视频被上传到某非法网站并在互联网上发布,她的脸被“深度伪造”到了一位色情女演员的身体上。虽然该非法网站迅速删除了视频,但范德韦格表示,斯塔克斯的声誉已经受到损害。
要想了解全身深度伪造技术的效果,范德韦格提到了2018年CNN驻白宫首席记者吉姆·阿科斯塔(Jim Acosta)的视频。在Infowars的编辑保罗·约瑟夫·沃森(Paul Joseph Watson)上传的一段视频片段中,阿科斯塔似乎在猛推试图拿走其麦克风的白宫工作人员。
但由C-SPAN播放的原始视频与沃森上传的视频内容截然不同。沃森声称,他没有篡改视频片段,并将这种差异归因于人为的“视频压缩”所致。但是,正如《独立报》在编辑时间线中对视频进行并排分析中所展示的那样,沃森的视频与原始视频相比缺失了几帧。全身的深度伪造就像编辑视频帧一样,可以改变事件的真实性。
Deeptrace实验室成立于2018年,是一家网络安全公司,它正在构建基于计算机视觉和深度学习的工具,以分析和理解视频,特别是那些可以被任何类型AI操纵或合成的视频。公司创始人乔治·帕特里尼(Giorgio Patrini)曾是阿姆斯特丹大学三角洲实验室(Delta Lab)深度学习的博士后研究员。他说,几年前他开始研究防止或防范未来对合成媒体滥用的技术。
帕特里尼相信,恶意的深度伪造视频由合成的全身、面部和音频组成,很快就会被用来攻击记者和政客。他指着一段深度伪造的色情视频称,视频中印度记者拉娜·阿尤布(Rana AYYub)的脸被换到了一名色情女演员的身体上,这是一场造谣运动的一部分,目的是诋毁她的调查性报道。
《华尔街日报》最近报道称,一家英国能源公司的首席执行官被骗将24.3万美元资金转到了匈牙利供应商的账户上。这位高管说,他以为自己是在老板对话,后者似乎已经批准了这笔交易。现在,这位首席执行官认为,他是一场音频深度伪造骗局的受害者。法里德认为,其他欺诈性的深度伪造犯罪出现只是时间问题,可能包括全身深度伪造。
法里德说:“我可以制作一段杰夫·贝索斯(Jeff Bezos)的深度伪造视频,他说亚马逊的股票正在下跌,想想做空亚马逊股票可以赚到多少钱。当你控制住它传播的时候,损害已经造成了。”
法里德认为,社交媒体和深度伪造技术的结合,无论是面部还是全身伪造,都很容易造成严重破坏。社交媒体公司在很大程度上不能或不愿意审查他们的平台和内容,所以深度伪造内容可能会像野火一样传播。他说:“当你将创造深度伪造内容的能力与在全球范围内分发和消费它们的能力结合起来时,这会造成巨大影响。”
正如隐私学者丹妮尔·西特龙(Danielle Citron)所指出的那样,当深度伪造视频被揭穿时,它可以向那些购买谎言的人暗示,这样做是值得的。西特龙称其为“骗子的红利”。法里德认为,全身深度伪造技术的进步将使这种邪恶深度伪造的整体问题变得更糟。这项技术发展迅速,它受到大学研究“人人皆为舞王”以及诸如Zao等深度伪造应用货币化的推动。
法里德说:“一旦你能伪造全部人体都工作,就不会满足再模仿面部了,你可以模拟人们不同场景下发生的活动。这样的场景即将成为现实吗?可能不会在近期出现。但最终,在一两年内,人们将能够实现全身深度伪造,而且它将具有令人难以置信的强大功能。”
目前,在科技行业中还没有找到根除深度伪造的共识方法,许多不同的技术正在研究和测试中。例如,范德韦格的研究团队创造了各种探索深度伪造视频方法的内部挑战。一个团队调查镜头的数字水印,以识别深度伪造内容。另一个团队使用区块链技术来建立信任,这是它的优势之一。还有一个团队通过使用最初创伪造视频的相同深度学习技术来识别它们。
范德韦格表示:“有些斯坦福大学的辍学生创造了AI神探夏洛克,这是一种深度伪造视频自动检测工具。他们取样了某些卷积模型,然后在视频中寻找异常。这是一种被其他深度伪造探测器使用的程序,比如Deeptrace实验室。他们使用名为FaceForensics+的数据集,然后对其进行测试。这种技术的识别准确率高达97%,而且更擅长识别换脸。”
Deeptrace实验室基于API的监控系统可以看到深度伪造视频的创建、上传和共享。自2018年成立以来,该公司已经在互联网上发现了超过1.4万个假视频。Deeptrace实验室的系统收集的信息可以告知公司及其客户,伪造者正在制造什么样的深度假视频,假视频来自哪里,他们正在使用什么算法,以及这些工具的可访问性如何。
帕特里尼说,他的研究小组发现,95%的深度伪造视频是色情类别中的换脸,其中大多数是名人被换脸。到目前为止,Deeptrace实验室还没有看到任何全身合成技术出现。帕特里尼指出:“你不能用一个算法或想法来总结这些问题的解决方案,这需要构建几个可以告诉你关于合成媒体整体不同信息的工具。”
范德韦格认为,探测深度伪造技术的下一件大事将是“软”生物特征签名。每个人都有自己独特的面部特征,比如扬起的眉毛、嘴唇的动作以及手部动作等,这些都是独一无二的。加州大学伯克利分校的研究员舒迪·阿加瓦尔(Shruti Agarwal)使用这类软生物识别模型,来确定这种面部抽搐是否是为视频人工创建的。
阿加瓦尔今年6月接受采访时表示:“基本想法是,我们可以为一些人建立软生物识别模型,然后当视频开始疯传时,我们可以分析它们,努力确定它们是否是真实的。”
尽管阿加瓦尔的模型不是完全可靠,因为不同情况下的人们可能使用不同的面部抽搐,但范德韦格认为,公司可以在未来提供用于身份验证目的软生物特征签名。这样的签名可以是众所周知的眼睛扫描或全身扫描。他说:“我认为这是未来技术前进的方向:与学者和大型科技公司合作创建更大的数据集。作为新闻编辑部,我们应该尝试培训人员,并建立关于深度伪造视频的媒体素养。”
最近,facebook和微软正与大学合作推出“深度伪造视频探测挑战赛”。另一项值得注意的努力是美国国防高级研究计划局(DARPA)的项目,即通过语义取证来解决深度伪造问题,该机构寻找算法错误,例如在深度伪造视频中发现某个人佩戴的耳环不匹配。2018年9月,AI基金会筹集了1000万美元资金,用于创建一个工具,通过机器学习和人类版主识别深层伪造和其他恶意内容。
为何深度伪造难监管
Fast.AI的托马斯说:“在短期内,推广虚假信息和其他有毒、煽动性内容对主要平台来说是有利可图的,所以我们的激励机制完全不一致。我不认为这些平台应该对它们托管的内容负责,但我确实认为它们应该对它们积极宣传的内容负责。例如,YouTube向那些甚至没有寻找的人推荐了160亿次亚历克斯·琼斯(Alex Jones)的视频。”
Deeptrace实验室的帕特里尼说,对合成媒体的监管可能证明是复杂的。但是,他相信某些现行的法律,比如那些涵盖诽谤和版权的法律,可以用来监管恶意的深度伪造行为。帕特里尼说,阻止深度伪造的全面法律将会被误导。相反,他认为应该支持造福社会的合成媒体应用,同时资助研究开发工具来检测深度伪造内容,并鼓励初创企业和其他公司也这样做。
帕特里尼说:“我们还可以告诉大众,这项技术已经存在,我们需要重新训练我们的耳朵和眼睛,不要相信我们在互联网上看到和听到的一切。我们需要为人和社会接种‘疫苗’,而不是在两年内修复东西,因为滥用这项技术可能会引发许多灾难性或有争议的事情。”
奥默尔称:“我们都看到了图像理解的应用及其潜在的好处,但这涉及非常重要的责任问题,谁将为此承担责任?公司很可能为了股东的利益着想也需要明确自己的责任。但是,我们都知道他们到目前为止是如何处理这一责任的。这是个非常棘手的问题,它们只是希望深度伪造视频自然而然地消失,但这显然是不现实的。”