cxu 在 数据自动脱敏, 防止密码、 个人隐私等泄漏给 AI 的思路和方案 [开源自荐] 中发帖
对佬友来说, 大模型的泄密隐患如鲠在喉, 如芒在背, 比如
已有的解决方案, 比如这个:
这种方案有两个问题: 一个是, 他是基于正则表达式的替换。 IP, 手机号倒是好匹配, 但是密码 / API Key 却没有固定格式。 第二个问题是, MCP 是给 AI 助手调用的工具, 就是说 AI 先看到了你的密码, 然后再告诉 MCP server 要把密码藏起来。 既然 AI 都已经看到你的密码了, 你再藏起来有什么用?
为考察已有的方案, 在 github 上又看了几个脱敏工具, 也基本上用正则表达式替换实现, 弊端已有前述。 另一种思路是用 NER (命名实体识别) 算法/模型找到敏感数据, 但 NER 不够灵活, 容易误杀, 比如, 地名在很多场合是隐私数据 (IP开盒等), 但在旅游规划的等场景下, 地名却不应该被打码。
基于规则的脱敏, 无论是正则还是N...