新浪财经

从“源头”保护数据安全:腾讯安全推大模型隐私保护脱敏技术

紫牛新闻

关注

大模型已经被广泛应用在各类场景,帮助人们进行报告摘要、文本翻译、数据分析、业务风控等各项工作,极大地提升了工作效率,但同时公众对于大模型带来的数据泄露的隐忧也从未停止。

近日,腾讯安全玄武实验室披露了一项关于大模型隐私保护的安全脱敏与还原(Hide and Seek, HaS)技术,有望帮助大模型产品使用者从本地终端侧防范隐私数据泄露。

HaS为业内首个支持信息还原的自由文本脱敏技术,通过对用户上传给大模型的prompt(提示词)进行隐私信息脱敏,并在大模型返回计算结果后进行恢复,该方案兼顾了隐私安全和计算资源消耗:脱敏与还原算法经过4bit量化后权重文件仅500MB,可在手机、 PC等终端上部署。

这是业内首个公开发布的、能被大模型用户部署于终端侧的隐私保护脱敏技术。借助这一技术,用户可以从“源头”免除使用云端大模型带来的数据泄露方面的担忧。

据悉,这个模型主要适用于典型的NLP任务场景,例如机器翻译、文本摘要,文本润色、阅读理解、文本分类、情感分析等,其主要的技术难点在于如何解决实体识别与替换、实体指代消解、多义词识别、自纠错鲁棒性还原、实体翻译等。此前,不少大模型提供方以及专业安全厂商均在积极进行相关的尝试,但目前尚未有理想的解决方案。

“在大模型应用中提示词是一种自由文本,而针对自由文本的隐私保护问题,一种全密态的解决方案是通过安全多方计算(Multi-Party Computation, MPC)协议实现安全推理。然而,MPC协议在计算成本和通信量上的高需求严重限制了其在大模型应用中的落地。”腾讯安全玄武实验室高级安全工程师陈昱表示,“实际上,多数场景下用户并不需要保护整句的信息不泄漏,而仅需要保护其中的隐私实体不泄漏。”玄武实验室经过正则匹配、近义词向量、BERT NER+CR等方法的不断探索试错后,最终提出了这项技术。

实验表明,HaS的数据脱敏处理并不会对任务造成影响。在使用模型进行隐私保护与直接调用大模型相比“分类任务”与“翻译任务”两个场景的性能对比,在使用560M生成式方案下,文本分类任务的性能不仅没有下降,反而增加了0.14%;在1.7B标签式方案下,机器翻译任务性能仅下降了0.85%。

“一些企业或者个人用户开发者通过部署本地大模型来规避隐私数据泄露,但这要求一定的技术门槛,对于重度隐私需求的用户来说,通过本地安全模型/算法来实现数据保护,可能是更可行的办法。”玄武实验室正在逐步丰富这一模型的应用覆盖面,并完善其部署和交付方式,以供企业用户和个人用户在未来能够便捷使用。

菲菲 晓风

美国众议院议长迈克·约翰逊:我们正努力在截止日期前对税收法案进行投票。

以色列军方表示,100辆载有面粉、婴儿食品和医疗设备的卡车已从凯雷姆沙洛姆口岸运入加沙地带。

【裂痕加深 欧洲要求参与俄乌谈判 美称俄乌不需要第三方】美国总统特朗普与俄罗斯总统普京、乌克兰总统泽连斯基19日分别通电话,就俄乌停火谈判等问题进行沟通。美国“阿克西奥斯”网站20日披露了更多通话内容,在特朗普与普京通话结束后,特朗普再次致电泽连斯基。这一次,法国、德国、意大利、芬兰以及欧盟委员会等在内的欧洲领导人也参与其中。然而,美欧之间在一些问题上的裂痕逐步显现。报道称,德国总理默茨和意大利总理梅洛尼在与特朗普的交谈中、要求欧洲国家参与解决乌克兰问题的谈判。梅洛尼认为,谈判过程中“必须有人来做裁判”。默茨则提议召开一次各方都参与的会议。不过,特朗普称,俄罗斯和乌克兰可以在没有第三方调解人的情况下进行双边谈判。

美国众议院议长迈克·约翰逊:我们正努力在截止日期前对税收法案进行投票。

以色列军方表示,100辆载有面粉、婴儿食品和医疗设备的卡车已从凯雷姆沙洛姆口岸运入加沙地带。

请输入评论内容

举报成功

举报

请您选择举报的原因

说说你的看法

意见/建议 反馈入口
  • TOKEN
  • 标题/昵称
  • 反馈内容

已反馈成功~