新浪财经

AI换脸、拟声后冒充好友诈骗430万,新技术犯罪该如何防范?

界面新闻

关注

近日,一则利用AI换脸及拟声技术实施诈骗的案例引发关注。

根据警方通报内容显示,诈骗分子通过微信视频联系到受害者,利用上述技术佯装受害者好友,并以“在外地竞标需要保证金”为由要求受害者打款。

基于对好友的信任,加上已经通过视频聊天确认了对方身份,受害者便分两笔将430万元转至诈骗分子所说的银行卡上。当受害者拨打好友电话后才知道被骗。接到报案后,福州、包头两地警银迅速启动止付机制,成功拦截336.84万元,但仍有93.16万元被转移,目前警方正全力追缴中。

此次发生于福建的案件并非首例。公开信息显示,自2021年以来,在江苏、安徽、浙江、广东、福建等省份都曾出现利用AI技术不当牟利的案件。

2014年,由蒙特利尔大学提出的生成对抗网络(GAN)提高了数据生成的逼真程度,但也大大降低了深度合成的门槛。近年来,除GAN之外,扩散性模型(Diffusion Model)等技术路线都证明了其提升数据生成逼真程度的价值。

另据从事人工智能安全行业多年的瑞莱智慧统计,以“GAN”、“NeRf”、“TTS”等深度合成相关关键词在开源社区GitHub进行检索可知,相关开源项目数由2017年的8250个增至23030个。开源的氛围加速了技术的交流与突破,但客观上也使得如AI换脸、拟声等技术不再神秘。界面新闻以“AI换脸”为关键词在某视频平台搜索,可以轻易找到相关教程。

那么这类在各个平台上广为流传的“小白式”教程,能够达到在视频电话中令人真假难辨的效果吗?是否会有能够用肉眼捕捉的破绽?个人应当如何对此类骗局做出防范?

针对使用AI换脸、拟声技术进行诈骗的案例,小冰公司CEO李笛推测,有一种可能性是诈骗团队使用虚拟摄像头劫持微信视频电话的界面,以此来替换掉真实摄像头捕捉的图像,实现与受害者的视频对话。

李笛表示,目前了解到的用AI换脸的诈骗团队,主要是采用Wav2Lip这种开源技术,通过音频去驱动口型。“但是在某些口型上是会出现问题的,比如嘟起嘴时的口型错误、边缘抖动,或者口型朝向与五官不搭配等等。”

从拟声的角度来看,李笛告诉界面新闻,即便两个人声线完全一致,但是说话的韵律、习惯都是不同的,要完全模拟另一个人对诈骗团队而言成本很高。因此,在以往的诈骗案件中,诈骗团队都要经过前期的广泛筛选环节之后才能成功实施诈骗。

瑞莱智慧联合创始人、算法科学家萧子豪也表示,在视频通话时可以通过让对方做一些大幅度的摇头、张嘴之类的动作,“如果黑产做的模型不太精细、只做了正脸的情况下,突然露齿时生成的牙齿或舌头就不会特别清晰,耳朵处也可能会出现不正常的阴影。”

深度伪造内容检测正是瑞莱智慧的主要业务线之一。据萧子豪介绍,从技术角度辨别内容是否经过深度伪造同样有迹可循,辨别思路大致可分为两种,一种是寻找图像编辑痕迹,另一类则是判断行为是否符合常识。

“一般来说这类换脸都会对原先的人脸进行编辑,做动画的过程中会有类似图片编辑的操作并且留下痕迹,这类痕迹和真正拍摄时的痕迹是不一样的。我们会检测这类痕迹做出记录。”萧子豪解释道。

另一类则是检测视频中是否会展现出不符合常识的行为,如长时间不眨眼等等。综合上述特征,瑞莱智慧团队就可以判别是否存在深度伪造的可能性,并根据可能性大小来处置这一内容。

伴随ChatGPT在国内迅速掀起生成式人工智能浪潮,相关监管也快速跟进。今年开年以来,国家互联网信息办公室相继发布《互联网信息服务深度合成管理规定》《生成式人工智能服务管理办法(征求意见稿)》,对深度合成服务提供者的信息安全主体责任做出明确规定。

此类深度合成服务在业内并不少见,如商汤发布的“如影SenseAvatar”仅需一段5分钟的真人视频素材就可以生成其数字人分身;小冰公司于5月中旬发布的“GPT克隆人计划”最短只要采集三分钟数据,即可创造源于本人性格、技能、声音、外貌的AI克隆人。

对于开放服务的安全性,李笛表示,在使用“GPT克隆人计划”服务前,使用者需提供本人权属证明,如是企业用户申请则需提供营业执照。同时他强调,该服务并未开放任何API接口,仅可在该平台内使用,不会存在转接至社交平台上的情况,公司内部也会配置技术手段以防范自身服务被用作他处。

清华大学人工智能国际治理研究院副院长梁正曾表示,在新技术兴起时,人类通常会面临所谓的“科林格里奇困境”——技术尚未出现,监管者无法提前预测其影响并采取行动;而当它已经出现时,采取行动往往为时已晚或成本过高。

对于逐渐步入成熟期的深度合成技术而言,如何在监管不断迭代的基础上稳步实现技术突破与应用落地,是行业后续需要考虑的重要内容。

加载中...