新浪财经

Agent长期记忆的隐私焦虑,终于有救了。

市场资讯 05.15 12:12

(来源:刘聪NLP)

前几天刷到一个x,我醉了, 说DeepSeek泄露用户的聊天数据,输入会吐一些内容,

这不就是幻觉吗?跟泄露用户的隐私数据有啥关系,

就是special token injection没做好。

不过,隐私泄露的问题,确实是大家在用LLM时比较注意的,担心被别人拿去当训练数据。

其实各家训练都会做一些敏感信息的过滤,最后工程化也会做一下校验处理。

但,还是会有一些问题,

比如前段时间简历泄露的事件,不管如何,用户还是介意的。

一些安全意识比较强的人也会比较注意,

比如说配置模型的时候,不会直接让本地的agent去配置一些api-key,就是不明文暴露出去。

上个月,openai也开源了一个privacy-filter 模型,一个轻量隐私检测模型。

1.5B 参数激活50M,支持 128K 上下文,可以检测 8 类 PII,

涉及private_person、private_address、private_email、private_phone、private_url、private_date、account_number、secret等。

解决的是通用文本清洗问题。

你如果担心数据泄露,可以直接本地部署一个,把你输入,直接变成脱敏形式。

前两天百度大会的时候,跟朋友在聊天,也聊到了这个隐私问题,

他问我, 记忆张量MemTensor团队开源了一个MemPrivacy,有了解吗?

实话实说,根本不知道,哈哈哈哈,

不过我昨天在回家的高铁上刷了一下,还蛮有意思的,就分享一下。

MemPrivacy 做了一个有意思的事情,就是把隐私重新分层,

他设计了一个四级隐私分类树。

  • PL4 是致命凭证级,比如密码、API Key。这类东西泄露以后,可能直接带来金钱损失,基本是零容忍。

  • PL3 是高危敏感级,比如医疗诊断、金融记录、精准定位、生物特征。

  • PL2 是身份锚定级,比如姓名、电话、邮箱、详细地址、账号 ID。

  • PL1 是基础画像级,比如偏好、习惯、非诊断性情绪、交互风格。

这就很符合Agent时代,因为不管养虾、养马、还是养蛙,

核心都是让整个Agent系统更了解你,回答的内容或做的事情更符合你的期待。

所以,

Agent需要记住你喜欢什么、习惯怎么写邮件、平时用什么语气沟通,

但它不能记住你的API Key、病历、银行卡等信息。

因此,隐私保护对于Agent并不是藏得越严越好,需要在安全和有用之间找到一个好的平衡点。

不能二分类,需要不同的信息进入不同策略。

比如,PL1 可以服务个性化,PL2 要谨慎进入长期记忆,PL3 需要更强控制和单独授权,PL4 基本就应该拦截或者强脱敏。

这就是MemPrivacy的核心,

见:https://github.com/MemTensor/MemPrivacy/blob/main/src/privacy_masking.py

在向云端模型传输信息时,

用户的原始输入先在本地过一遍MemPrivacy 模型,模型会识别隐私span,判断它属于PL1到PL4哪一级,再给它一个类型。

如果命中需要保护的等级,就把原始值替换成类型化占位符。

比如,160/110 变成 、user@mail.com 变成 。

这些占位符和原始值的映射,会存在本地数据库里。

云端 Agent 看到的不是原始隐私,

这样可以让模型尽可能理解原始的语义结构,不会像直接打码***丢失太多的语义信息。

云端处理完成后,本地再根据映射表把 、 还原成用户能看到的真实内容,

进行可逆伪匿名化操作。

MemPrivacy的隐私模型训练也可以说一下,

底座用的是 Qwen3,开源了1.7B、4B两个尺寸的SFT和RL版本,

他们自己构造了一个MemPrivacy-Bench数据,

覆盖200个用户,训练集有160个用户(2.6万轮对话,12.5万多个隐私实例),测试集有40个用户(6337轮对话,包含2.9万多个隐私实例)。 

中英文各一半,覆盖写作润色、金融数据分析、咨询规划、情绪社交、上下文推理等常见的Agent任务。

同时借助Gemini-3.1-Pro和GPT-5.2做初始标注,再做两阶段修正,最后让6个人对评测集做人工校验。

模型训练分两步。

第一步是SFT,用26K训练样本让模型先学会识别隐私span、隐私等级和隐私类型,让模型有稳定的隐私抽取能力。

第二步是GRPO,用了1K训练样本做强化学习,奖励信号是隐私抽取任务里的F1值。模型对同一个输入采样多组输出,然后根据每个输出和标注答案之间的 F1 给奖励。

选取F1值是为了逼模型在precision和recall之间找平衡,不至于召回过低漏掉敏感信息,或者精度过低普通内容误伤。

效果上,MemPrivacy-4B-RL在MemPrivacy-Bench上做到85.97 F1,在PersonaMem-v2上做到94.48 F1。

privacy-filter映射到他们的四级体系后,在MemPrivacy-Bench上是35.50 F1,在PersonaMem-v2上是85.27 F1。

把 MemPrivacy 接到 LangMem、Mem0、Memobase 三个记忆系统上,统一用GPT-4.1做底座,比较不同隐私保护方式对记忆问答的影响。

开启 PL2、PL3、PL4 最高防御级别时,MemPrivacy 的效用损失只有0.71%到1.60%。

而不可逆 masking 会让效用下降16.99%-41.87%。

最后,

我一直在强调,端云结合是必然趋势,

云端的模型具有足够的智能性,

端侧模型开源快速解决简单、重复的问题。

以后个人 Agent 越强,越会记住你,越能替你做事,它就越不可能只靠一句请勿上传敏感信息来保护用户。

用户要的不只是一个更聪明的助手。

用户还需要知道,哪些东西会被记住,哪些东西不会上云,哪些东西即便参与任务,也不会以原始形态留在云端。

Agent 的长期记忆必将想成为基础能力,

隐私保护也必须成为基础能力。

加载中...