Agent长期记忆的隐私焦虑,终于有救了。
(来源:刘聪NLP)
前几天刷到一个x,我醉了, 说DeepSeek泄露用户的聊天数据,输入
这不就是幻觉吗?跟泄露用户的隐私数据有啥关系,
就是special token injection没做好。
不过,隐私泄露的问题,确实是大家在用LLM时比较注意的,担心被别人拿去当训练数据。
其实各家训练都会做一些敏感信息的过滤,最后工程化也会做一下校验处理。
但,还是会有一些问题,
比如前段时间简历泄露的事件,不管如何,用户还是介意的。
一些安全意识比较强的人也会比较注意,
比如说配置模型的时候,不会直接让本地的agent去配置一些api-key,就是不明文暴露出去。
上个月,openai也开源了一个privacy-filter 模型,一个轻量隐私检测模型。
1.5B 参数激活50M,支持 128K 上下文,可以检测 8 类 PII,
涉及private_person、private_address、private_email、private_phone、private_url、private_date、account_number、secret等。
解决的是通用文本清洗问题。
你如果担心数据泄露,可以直接本地部署一个,把你输入,直接变成脱敏形式。
前两天在百度大会的时候,跟朋友在聊天,也聊到了这个隐私问题,
他问我, 记忆张量MemTensor团队开源了一个MemPrivacy,有了解吗?
实话实说,根本不知道,哈哈哈哈,
不过我昨天在回家的高铁上刷了一下,还蛮有意思的,就分享一下。
MemPrivacy 做了一个有意思的事情,就是把隐私重新分层,
他设计了一个四级隐私分类树。
PL4 是致命凭证级,比如密码、API Key。这类东西泄露以后,可能直接带来金钱损失,基本是零容忍。
PL3 是高危敏感级,比如医疗诊断、金融记录、精准定位、生物特征。
PL2 是身份锚定级,比如姓名、电话、邮箱、详细地址、账号 ID。
PL1 是基础画像级,比如偏好、习惯、非诊断性情绪、交互风格。
这就很符合Agent时代,因为不管养虾、养马、还是养蛙,
核心都是让整个Agent系统更了解你,回答的内容或做的事情更符合你的期待。
所以,
Agent需要记住你喜欢什么、习惯怎么写邮件、平时用什么语气沟通,
但它不能记住你的API Key、病历、银行卡等信息。
因此,隐私保护对于Agent并不是藏得越严越好,需要在安全和有用之间找到一个好的平衡点。
不能二分类,需要不同的信息进入不同策略。
比如,PL1 可以服务个性化,PL2 要谨慎进入长期记忆,PL3 需要更强控制和单独授权,PL4 基本就应该拦截或者强脱敏。
这就是MemPrivacy的核心,
见:https://github.com/MemTensor/MemPrivacy/blob/main/src/privacy_masking.py
在向云端模型传输信息时,
用户的原始输入先在本地过一遍MemPrivacy 模型,模型会识别隐私span,判断它属于PL1到PL4哪一级,再给它一个类型。
如果命中需要保护的等级,就把原始值替换成类型化占位符。
比如,160/110 变成
这些占位符和原始值的映射,会存在本地数据库里。
云端 Agent 看到的不是原始隐私,
这样可以让模型尽可能理解原始的语义结构,不会像直接打码***丢失太多的语义信息。
云端处理完成后,本地再根据映射表把
进行可逆伪匿名化操作。
MemPrivacy的隐私模型训练也可以说一下,
底座用的是 Qwen3,开源了1.7B、4B两个尺寸的SFT和RL版本,
他们自己构造了一个MemPrivacy-Bench数据,
覆盖200个用户,训练集有160个用户(2.6万轮对话,12.5万多个隐私实例),测试集有40个用户(6337轮对话,包含2.9万多个隐私实例)。
中英文各一半,覆盖写作润色、金融数据分析、咨询规划、情绪社交、上下文推理等常见的Agent任务。
同时借助Gemini-3.1-Pro和GPT-5.2做初始标注,再做两阶段修正,最后让6个人对评测集做人工校验。
模型训练分两步。
第一步是SFT,用26K训练样本让模型先学会识别隐私span、隐私等级和隐私类型,让模型有稳定的隐私抽取能力。
第二步是GRPO,用了1K训练样本做强化学习,奖励信号是隐私抽取任务里的F1值。模型对同一个输入采样多组输出,然后根据每个输出和标注答案之间的 F1 给奖励。
选取F1值是为了逼模型在precision和recall之间找平衡,不至于召回过低漏掉敏感信息,或者精度过低普通内容误伤。
效果上,MemPrivacy-4B-RL在MemPrivacy-Bench上做到85.97 F1,在PersonaMem-v2上做到94.48 F1。
privacy-filter映射到他们的四级体系后,在MemPrivacy-Bench上是35.50 F1,在PersonaMem-v2上是85.27 F1。
把 MemPrivacy 接到 LangMem、Mem0、Memobase 三个记忆系统上,统一用GPT-4.1做底座,比较不同隐私保护方式对记忆问答的影响。
开启 PL2、PL3、PL4 最高防御级别时,MemPrivacy 的效用损失只有0.71%到1.60%。
而不可逆 masking 会让效用下降16.99%-41.87%。
最后,
我一直在强调,端云结合是必然趋势,
云端的模型具有足够的智能性,
端侧模型开源快速解决简单、重复的问题。
以后个人 Agent 越强,越会记住你,越能替你做事,它就越不可能只靠一句请勿上传敏感信息来保护用户。
用户要的不只是一个更聪明的助手。
用户还需要知道,哪些东西会被记住,哪些东西不会上云,哪些东西即便参与任务,也不会以原始形态留在云端。
Agent 的长期记忆必将想成为基础能力,
隐私保护也必须成为基础能力。