Agent长期记忆的隐私焦虑，终于有救了。

市场资讯 05.15 12:12

（来源：刘聪NLP）

前几天刷到一个x，我醉了，说DeepSeek泄露用户的聊天数据，输入会吐一些内容，

这不就是幻觉吗？跟泄露用户的隐私数据有啥关系，

就是special token injection没做好。

不过，隐私泄露的问题，确实是大家在用LLM时比较注意的，担心被别人拿去当训练数据。

其实各家训练都会做一些敏感信息的过滤，最后工程化也会做一下校验处理。

但，还是会有一些问题，

比如前段时间简历泄露的事件，不管如何，用户还是介意的。

一些安全意识比较强的人也会比较注意，

比如说配置模型的时候，不会直接让本地的agent去配置一些api-key，就是不明文暴露出去。

上个月，openai也开源了一个privacy-filter 模型，一个轻量隐私检测模型。

1.5B 参数激活50M，支持 128K 上下文，可以检测 8 类 PII，

涉及private_person、private_address、private_email、private_phone、private_url、private_date、account_number、secret等。

解决的是通用文本清洗问题。

你如果担心数据泄露，可以直接本地部署一个，把你输入，直接变成脱敏形式。

前两天在百度大会的时候，跟朋友在聊天，也聊到了这个隐私问题，

他问我，记忆张量MemTensor团队开源了一个MemPrivacy，有了解吗？

实话实说，根本不知道，哈哈哈哈，

不过我昨天在回家的高铁上刷了一下，还蛮有意思的，就分享一下。

MemPrivacy 做了一个有意思的事情，就是把隐私重新分层，

他设计了一个四级隐私分类树。

PL4 是致命凭证级，比如密码、API Key。这类东西泄露以后，可能直接带来金钱损失，基本是零容忍。
PL3 是高危敏感级，比如医疗诊断、金融记录、精准定位、生物特征。
PL2 是身份锚定级，比如姓名、电话、邮箱、详细地址、账号 ID。
PL1 是基础画像级，比如偏好、习惯、非诊断性情绪、交互风格。

这就很符合Agent时代，因为不管养虾、养马、还是养蛙，

核心都是让整个Agent系统更了解你，回答的内容或做的事情更符合你的期待。

所以，

Agent需要记住你喜欢什么、习惯怎么写邮件、平时用什么语气沟通，

但它不能记住你的API Key、病历、银行卡等信息。

因此，隐私保护对于Agent并不是藏得越严越好，需要在安全和有用之间找到一个好的平衡点。

不能二分类，需要不同的信息进入不同策略。

比如，PL1 可以服务个性化，PL2 要谨慎进入长期记忆，PL3 需要更强控制和单独授权，PL4 基本就应该拦截或者强脱敏。

这就是MemPrivacy的核心，

见：https://github.com/MemTensor/MemPrivacy/blob/main/src/privacy_masking.py

在向云端模型传输信息时，

用户的原始输入先在本地过一遍MemPrivacy 模型，模型会识别隐私span，判断它属于PL1到PL4哪一级，再给它一个类型。

如果命中需要保护的等级，就把原始值替换成类型化占位符。

比如，160/110 变成、user@mail.com 变成。

这些占位符和原始值的映射，会存在本地数据库里。

云端 Agent 看到的不是原始隐私，

这样可以让模型尽可能理解原始的语义结构，不会像直接打码***丢失太多的语义信息。

云端处理完成后，本地再根据映射表把、还原成用户能看到的真实内容，

进行可逆伪匿名化操作。

MemPrivacy的隐私模型训练也可以说一下，

底座用的是 Qwen3，开源了1.7B、4B两个尺寸的SFT和RL版本，

他们自己构造了一个MemPrivacy-Bench数据，

覆盖200个用户，训练集有160个用户（2.6万轮对话，12.5万多个隐私实例），测试集有40个用户（6337轮对话，包含2.9万多个隐私实例）。

中英文各一半，覆盖写作润色、金融数据分析、咨询规划、情绪社交、上下文推理等常见的Agent任务。

同时借助Gemini-3.1-Pro和GPT-5.2做初始标注，再做两阶段修正，最后让6个人对评测集做人工校验。

模型训练分两步。

第一步是SFT，用26K训练样本让模型先学会识别隐私span、隐私等级和隐私类型，让模型有稳定的隐私抽取能力。

第二步是GRPO，用了1K训练样本做强化学习，奖励信号是隐私抽取任务里的F1值。模型对同一个输入采样多组输出，然后根据每个输出和标注答案之间的 F1 给奖励。

选取F1值是为了逼模型在precision和recall之间找平衡，不至于召回过低漏掉敏感信息，或者精度过低普通内容误伤。

效果上，MemPrivacy-4B-RL在MemPrivacy-Bench上做到85.97 F1，在PersonaMem-v2上做到94.48 F1。

privacy-filter映射到他们的四级体系后，在MemPrivacy-Bench上是35.50 F1，在PersonaMem-v2上是85.27 F1。

把 MemPrivacy 接到 LangMem、Mem0、Memobase 三个记忆系统上，统一用GPT-4.1做底座，比较不同隐私保护方式对记忆问答的影响。

开启 PL2、PL3、PL4 最高防御级别时，MemPrivacy 的效用损失只有0.71%到1.60%。

而不可逆 masking 会让效用下降16.99%-41.87%。

最后，

我一直在强调，端云结合是必然趋势，

云端的模型具有足够的智能性，

端侧模型开源快速解决简单、重复的问题。

以后个人 Agent 越强，越会记住你，越能替你做事，它就越不可能只靠一句请勿上传敏感信息来保护用户。

用户要的不只是一个更聪明的助手。

用户还需要知道，哪些东西会被记住，哪些东西不会上云，哪些东西即便参与任务，也不会以原始形态留在云端。

Agent 的长期记忆必将想成为基础能力，

隐私保护也必须成为基础能力。