
一名演员的脸在制作深度伪造视频时被绿色网格覆盖。(路透社)
可能只是角落里一个奇怪的像素,或者面部微小的变化,但这可能就是深度伪造检测器判断图像或视频真伪所需的全部线索。
至少,这是理论上的想法,但澳大利亚和韩国研究人员的一项新研究发现,实际情况可能并非如此。
在现实世界的测试中,深度伪造检测器难以区分真假,准确率仅为三分之二。
“在我们的评估中,当前一代的深度伪造检测器在检测现实世界中的深度伪造内容时表现不佳,”该论文的作者之一、CSIRO的深度伪造研究员Shahroz Tariq表示。
“如果它们在现实世界中的深度伪造内容上表现不佳,那就是一个问题。”
这项尚未经过同行评审并由期刊发表的研究,突显了生成新型深度伪造内容的人与试图检测它们的人之间的军备竞赛,并带来了现实世界的后果。
猫鼠游戏
深度伪造检测器旨在推断图像、视频、音频片段或其他类型的媒体是否被篡改或完全伪造。
这可能是视频中的换脸、完全虚构的人物图像,或是伪造的新闻事件视频。
检测器通过大量伪造图像、音频和视频的数据库进行训练,以创建一种事实查找的神经网络。
就像人工智能可以通过输入无数图片和视频来学习香蕉或汽车是什么一样,通过在这些大型数据库上进行训练,深度伪造检测器可以学习深度伪造内容的样子。
墨尔本大学专门研究错误信息的计算机科学家Lea Frermann指出,这些线索并不一定是人类会注意到的。
“如果你改变对人类来说完全无关紧要的东西,比如图像中的五个随机像素,它可能会完全破坏模型。”
那些制作深度伪造内容的人和试图检测它们的人正在不断试图超越对方。
“这有点像猫鼠游戏,”Frermann博士说。
“底层技术非常相似,每当生成器变得更好,深度伪造内容变得更逼真时,它们也变得更难检测。”
不幸的是,作为神经网络,这些检测器有其局限性。像以某种方式压缩视频或图像这样简单的事情就可以欺骗一些检测器。
检测器训练
虽然一些深度伪造数据库用于制作检测器,但其他数据库用于测试检测器的性能,分析真实和伪造的结果。
常用的两个数据库是CelebDF和Deepfake Detection Challenge(深度伪造检测挑战)。
CelebDF主要由YouTube风格、光线良好的名人深度伪造视频组成,而Deepfake Detection Challenge(DFDC)则包含更多种类的视频,包括压缩、颗粒感强或光线不佳的视频。
根据Tariq博士的说法,光线良好、常见名人面孔的视频比DFDC中的视频更容易被检测器识别。
2020年,包括Facebook、微软和亚马逊在内的公司联盟向使用DFDC数据集的最准确深度伪造检测模型提供了100万美元的奖金。
获胜的检测器准确率仅为65%。
在当前的研究中,团队再次查看了最新的检测器及其在DFDC上的表现。
得分最高的检测器能够正确识别真假视频的准确率为86%。这低于更容易识别的CelebDF,但高于2020年的结果。
“从基准数据集的角度来看,我们可以说我们正在变得更好,”Tariq博士说。
但问题是,这些数据集现在已经过时多年。

这些深度伪造肖像由CSIRO使用生成式AI图像软件Midjourney生成,展示了深度伪造技术日益逼真和复杂的特点。(提供:CSIRO)
当团队从互联网上收集了一组较新的深度伪造视频——他们称之为“野外”视频——准确率从86%下降到69%。
但是,由于深度伪造生成速度如此之快,而且团队只收集到2024年的图像,如果今天进行同样的分析,这个数字可能会更低。
“在旧数据集上工作的检测器不一定能推广到下一代的伪造内容,这是一个大问题,”Frermann博士说。
“我认为我们应该非常担心。”
虽然政治家和研究人员已经强调了选举错误信息和深度伪造色情内容的潜在风险,但Tariq博士表示,这个问题在安全领域也成为一个大问题,尤其是在面部验证等功能上。
人与机器合作
不幸的是,解决这个问题并不容易。
在论文中,团队提出了一个新的框架,其他研究人员可以使用它来创建新的、更好的深度伪造检测器。
Tariq博士还表示,构建专注于一种深度伪造内容的专用检测器可能会有所帮助。
“我们在本文中尝试了一种专门针对名人图像进行训练的检测器,它在名人深度伪造内容上表现非常好,”他说。
“但如果你尝试将相同的检测器用于各种人物的图像,它的表现就不佳。”
Frermann博士同意当前的检测器在“推广”到其他类型的深度伪造内容上表现特别差,但她认为这可能无法解决军备竞赛问题。
“技术总是在变化,”她说。
“即使你拥有所有基于过去方法构建的优秀专用模型,你仍然需要构建新的模型。”
相反,她建议可能还需要更多的非技术解决方案。
对她来说,最重要的是确保人们知道深度伪造内容的存在,并了解可能发现它们的微妙方式。
你能发现深度伪造吗?
西北大学的研究人员还创建了一个名为Detect Fakes的网站