AI换脸、拟声后冒充好友诈骗430万，新技术犯罪该如何防范？

界面新闻

2023.05.2519:11

关注

近日，一则利用AI换脸及拟声技术实施诈骗的案例引发关注。

根据警方通报内容显示，诈骗分子通过微信视频联系到受害者，利用上述技术佯装受害者好友，并以“在外地竞标需要保证金”为由要求受害者打款。

基于对好友的信任，加上已经通过视频聊天确认了对方身份，受害者便分两笔将430万元转至诈骗分子所说的银行卡上。当受害者拨打好友电话后才知道被骗。接到报案后，福州、包头两地警银迅速启动止付机制，成功拦截336.84万元，但仍有93.16万元被转移，目前警方正全力追缴中。

此次发生于福建的案件并非首例。公开信息显示，自2021年以来，在江苏、安徽、浙江、广东、福建等省份都曾出现利用AI技术不当牟利的案件。

2014年，由蒙特利尔大学提出的生成对抗网络（GAN）提高了数据生成的逼真程度，但也大大降低了深度合成的门槛。近年来，除GAN之外，扩散性模型（Diffusion Model）等技术路线都证明了其提升数据生成逼真程度的价值。

另据从事人工智能安全行业多年的瑞莱智慧统计，以“GAN”、“NeRf”、“TTS”等深度合成相关关键词在开源社区GitHub进行检索可知，相关开源项目数由2017年的8250个增至23030个。开源的氛围加速了技术的交流与突破，但客观上也使得如AI换脸、拟声等技术不再神秘。界面新闻以“AI换脸”为关键词在某视频平台搜索，可以轻易找到相关教程。

那么这类在各个平台上广为流传的“小白式”教程，能够达到在视频电话中令人真假难辨的效果吗？是否会有能够用肉眼捕捉的破绽？个人应当如何对此类骗局做出防范？

针对使用AI换脸、拟声技术进行诈骗的案例，小冰公司CEO李笛推测，有一种可能性是诈骗团队使用虚拟摄像头劫持微信视频电话的界面，以此来替换掉真实摄像头捕捉的图像，实现与受害者的视频对话。

李笛表示，目前了解到的用AI换脸的诈骗团队，主要是采用Wav2Lip这种开源技术，通过音频去驱动口型。“但是在某些口型上是会出现问题的，比如嘟起嘴时的口型错误、边缘抖动，或者口型朝向与五官不搭配等等。”

从拟声的角度来看，李笛告诉界面新闻，即便两个人声线完全一致，但是说话的韵律、习惯都是不同的，要完全模拟另一个人对诈骗团队而言成本很高。因此，在以往的诈骗案件中，诈骗团队都要经过前期的广泛筛选环节之后才能成功实施诈骗。

瑞莱智慧联合创始人、算法科学家萧子豪也表示，在视频通话时可以通过让对方做一些大幅度的摇头、张嘴之类的动作，“如果黑产做的模型不太精细、只做了正脸的情况下，突然露齿时生成的牙齿或舌头就不会特别清晰，耳朵处也可能会出现不正常的阴影。”

深度伪造内容检测正是瑞莱智慧的主要业务线之一。据萧子豪介绍，从技术角度辨别内容是否经过深度伪造同样有迹可循，辨别思路大致可分为两种，一种是寻找图像编辑痕迹，另一类则是判断行为是否符合常识。

“一般来说这类换脸都会对原先的人脸进行编辑，做动画的过程中会有类似图片编辑的操作并且留下痕迹，这类痕迹和真正拍摄时的痕迹是不一样的。我们会检测这类痕迹做出记录。”萧子豪解释道。

另一类则是检测视频中是否会展现出不符合常识的行为，如长时间不眨眼等等。综合上述特征，瑞莱智慧团队就可以判别是否存在深度伪造的可能性，并根据可能性大小来处置这一内容。

伴随ChatGPT在国内迅速掀起生成式人工智能浪潮，相关监管也快速跟进。今年开年以来，国家互联网信息办公室相继发布《互联网信息服务深度合成管理规定》《生成式人工智能服务管理办法（征求意见稿）》，对深度合成服务提供者的信息安全主体责任做出明确规定。

此类深度合成服务在业内并不少见，如商汤发布的“如影SenseAvatar”仅需一段5分钟的真人视频素材就可以生成其数字人分身；小冰公司于5月中旬发布的“GPT克隆人计划”最短只要采集三分钟数据，即可创造源于本人性格、技能、声音、外貌的AI克隆人。

对于开放服务的安全性，李笛表示，在使用“GPT克隆人计划”服务前，使用者需提供本人权属证明，如是企业用户申请则需提供营业执照。同时他强调，该服务并未开放任何API接口，仅可在该平台内使用，不会存在转接至社交平台上的情况，公司内部也会配置技术手段以防范自身服务被用作他处。

清华大学人工智能国际治理研究院副院长梁正曾表示，在新技术兴起时，人类通常会面临所谓的“科林格里奇困境”——技术尚未出现，监管者无法提前预测其影响并采取行动；而当它已经出现时，采取行动往往为时已晚或成本过高。

对于逐渐步入成熟期的深度合成技术而言，如何在监管不断迭代的基础上稳步实现技术突破与应用落地，是行业后续需要考虑的重要内容。