cxu 在数据自动脱敏, 防止密码､个人隐私等泄漏给 AI 的思路和方案 [开源自荐] 中发帖对佬友来说, 大模型的泄密隐患如鲠在喉, 如芒在背, 比如已有的解决方案, 比如这个: 这种方案有两个问题: 一个是, 他是基于正则表达式的替换｡ IP, 手机号倒是好匹配, 但是密码 / API Key 却没有固定格式｡第二个问题是, MCP 是给 AI 助手调用的工具, 就是说 AI 先看到了你的密码, 然后再告诉 MCP server 要把密码藏起来｡既然 AI 都已经看到你的密码了, 你再藏起来有什么用? 为考察已有的方案, 在 github 上又看了几个脱敏工具, 也基本上用正则表达式替换实现, 弊端已有前述｡另一种思路是用 NER (命名实体识别) 算法/模型找到敏感数据, 但 NER 不够灵活, 容易误杀, 比如, 地名在很多场合是隐私数据 (IP开盒等), 但在旅游规划的等场景下, 地名却不应该被打码｡基于规则的脱敏, 无论是正则还是N...

cxu 在数据自动脱敏, 防止密码､个人隐私等泄漏给 AI 的思路和方案 [开源自荐] 中发帖

对佬友来说, 大模型的泄密隐患如鲠在喉, 如芒在背, 比如 








已有的解决方案, 比如这个: 


这种方案有两个问题: 一个是, 他是基于正则表达式的替换｡ IP, 手机号倒是好匹配, 但是密码 / API Key 却没有固定格式｡ 第二个问题是, MCP 是给 AI 助手调用的工具, 就是说 AI 先看到了你的密码, 然后再告诉 MCP server 要把密码藏起来｡ 既然 AI 都已经看到你的密码了, 你再藏起来有什么用? 
为考察已有的方案, 在 github 上又看了几个脱敏工具, 也基本上用正则表达式替换实现, 弊端已有前述｡ 另一种思路是用 NER (命名实体识别) 算法/模型找到敏感数据, 但 NER 不够灵活, 容易误杀, 比如, 地名在很多场合是隐私数据 (IP开盒等), 但在旅游规划的等场景下, 地名却不应该被打码｡ 
基于规则的脱敏, 无论是正则还是N...