从“源头”保护数据安全：腾讯安全推大模型隐私保护脱敏技术

紫牛新闻

扬子晚报原创深度新闻 2023.12.0521:51

关注

大模型已经被广泛应用在各类场景，帮助人们进行报告摘要、文本翻译、数据分析、业务风控等各项工作，极大地提升了工作效率，但同时公众对于大模型带来的数据泄露的隐忧也从未停止。

近日，腾讯安全玄武实验室披露了一项关于大模型隐私保护的安全脱敏与还原（Hide and Seek, HaS）技术，有望帮助大模型产品使用者从本地终端侧防范隐私数据泄露。

HaS为业内首个支持信息还原的自由文本脱敏技术，通过对用户上传给大模型的prompt（提示词）进行隐私信息脱敏，并在大模型返回计算结果后进行恢复，该方案兼顾了隐私安全和计算资源消耗：脱敏与还原算法经过4bit量化后权重文件仅500MB，可在手机、 PC等终端上部署。

这是业内首个公开发布的、能被大模型用户部署于终端侧的隐私保护脱敏技术。借助这一技术，用户可以从“源头”免除使用云端大模型带来的数据泄露方面的担忧。

据悉，这个模型主要适用于典型的NLP任务场景，例如机器翻译、文本摘要，文本润色、阅读理解、文本分类、情感分析等，其主要的技术难点在于如何解决实体识别与替换、实体指代消解、多义词识别、自纠错鲁棒性还原、实体翻译等。此前，不少大模型提供方以及专业安全厂商均在积极进行相关的尝试，但目前尚未有理想的解决方案。

“在大模型应用中提示词是一种自由文本，而针对自由文本的隐私保护问题，一种全密态的解决方案是通过安全多方计算（Multi-Party Computation, MPC）协议实现安全推理。然而，MPC协议在计算成本和通信量上的高需求严重限制了其在大模型应用中的落地。”腾讯安全玄武实验室高级安全工程师陈昱表示，“实际上，多数场景下用户并不需要保护整句的信息不泄漏，而仅需要保护其中的隐私实体不泄漏。”玄武实验室经过正则匹配、近义词向量、BERT NER+CR等方法的不断探索试错后，最终提出了这项技术。

实验表明，HaS的数据脱敏处理并不会对任务造成影响。在使用模型进行隐私保护与直接调用大模型相比“分类任务”与“翻译任务”两个场景的性能对比，在使用560M生成式方案下，文本分类任务的性能不仅没有下降，反而增加了0.14%；在1.7B标签式方案下，机器翻译任务性能仅下降了0.85%。

“一些企业或者个人用户开发者通过部署本地大模型来规避隐私数据泄露，但这要求一定的技术门槛，对于重度隐私需求的用户来说，通过本地安全模型/算法来实现数据保护，可能是更可行的办法。”玄武实验室正在逐步丰富这一模型的应用覆盖面，并完善其部署和交付方式，以供企业用户和个人用户在未来能够便捷使用。

菲菲晓风

新浪财经

从“源头”保护数据安全：腾讯安全推大模型隐私保护脱敏技术

紫牛新闻

来源:视觉中国

美国众议院议长迈克·约翰逊：我们正努力在截止日期前对税收法案进行投票。

以色列军方表示，100辆载有面粉、婴儿食品和医疗设备的卡车已从凯雷姆沙洛姆口岸运入加沙地带。

美国众议院议长迈克·约翰逊：我们正努力在截止日期前对税收法案进行投票。

以色列军方表示，100辆载有面粉、婴儿食品和医疗设备的卡车已从凯雷姆沙洛姆口岸运入加沙地带。

相关新闻

推荐阅读

举报