当前位置: 首页 > news >正文

数据脱敏-6种方案,你选哪种?

 ​个人名片:
😊作者简介:一个为了让更多人看见许舒雅的宝贝的小白先生
🤡个人主页:🔗 许舒雅的宝贝
🐼座右铭:深夜两点半的夜灯依旧闪烁,凌晨四点的闹钟不止你一个。
🎅学习目标: 坚持前端的学习进度,做一个全栈开发工程师

目录

📕数据脱敏背景

🌟方案一:字符串替换(青铜)

👉优缺点分析

👉适用场景

🌟方案二:加密算法(白银)

👉加密算法选型

👉密钥管理方案对比

🌟方案三:数据遮蔽(黄金) 

👉性能影响测试数据

🌟方案四:数据替换(铂金级)

 👉映射表设计

👉替换流程

🌟方案五:动态脱敏(钻石) 

🌟方案六:K匿名化(王者)

👉实现步骤

👉代码示例

👉K值选择原则

🌟总结 


📕数据脱敏背景

在数字化时代,数据资产已成为企业核心资源。随着《个人信息保护法》等法规的颁布实施,数据安全治理面临新挑战。某金融机构的生产数据库包含200万客户资料,其开发测试团队需要真实数据集进行系统验证,但直接使用原始数据可能导致客户姓名、身份证号等敏感信息泄露。这种场景下,数据库脱敏技术通过构建数据变形算法$$f: D_{real} \rightarrow D_{masked}$$,在保持数据关联性和业务逻辑完整性的前提下,将敏感字段值$x$转换为不可逆的替代值$x'$。例如对银行卡号"622588******1234"实施部分遮蔽,既保留长度特征($L(x)=L(x')$),又消除信息泄露风险。这种技术平衡了数据利用与隐私保护的双重需求,成为现代数据安全体系的关键组件。

看过一篇文章,是某公司的员工,在开发环境执行了这样的代码:

// 反例:直接将生产数据同步到测试环境  
public void syncUserToTest(User user) {  testDB.insert(user); // 包含手机号、身份证等敏感字段  
}

直接将生产数据,比如:手机号、身份证号等敏感字段,同步到了测试环境。

结果第二天,收到了公司领导的“传票”。

接下来,我将整理6种数据脱敏的方案。

🌟方案一:字符串替换(青铜)

技术原理:通过将敏感数据的部分字符用特殊字符(如星号 *)进行替换,达到脱敏的效果。

public class DataMaskingExample {// 对手机号码进行脱敏,将中间4位数字用星号代替public static String maskPhoneNumber(String phoneNumber) {if (phoneNumber == null || phoneNumber.length() != 11) {return phoneNumber; // 如果手机号码为空或长度不是11位,直接返回原值}return phoneNumber.substring(0, 3) + "****" + phoneNumber.substring(7); // 中间4位用星号代替}// 对身份证号码进行脱敏,只显示前6位和最后2位,中间用星号代替public static String maskIdCardNumber(String idCardNumber) {if (idCardNumber == null || idCardNumber.length() < 8) {return idCardNumber; // 如果身份证号码为空或长度小于8位,直接返回原值}return idCardNumber.substring(0, 6) + "******" + idCardNumber.substring(idCardNumber.length() - 2); // 中间部分用星号代替}public static void main(String[] args) {String originalPhone = "13812345678";String maskedPhone = maskPhoneNumber(originalPhone);System.out.println("Original Phone: " + originalPhone);System.out.println("Masked Phone: " + maskedPhone); // 输出:Masked Phone: 138****5678String originalIdCard = "110101199003075678";String maskedIdCard = maskIdCardNumber(originalIdCard);System.out.println("Original ID Card: " + originalIdCard);System.out.println("Masked ID Card: " + maskedIdCard); // 输出:Masked ID Card: 110101******78}
}

使用正则表达式将关键字字段替换成“*”。

👉优缺点分析

✅ 优点:实现简单、性能高(时间复杂度O(n))

❌ 缺点:

  • 无法恢复原始数据
  • 正则表达式需考虑多国数据格式差异
  • 存在模式被破解风险(如固定位置替换)

👉适用场景

适用于需要快速展示部分数据信息的场景,如手机号码、银行卡号等。

🌟方案二:加密算法(白银)

👉加密算法选型

算法类型

代表算法特点适用场景
对称加密AES加解密快,密钥管理复杂支付信息存储
非对称加密RSA速度慢,安全性高密钥交换
国密算法SM4符合国家标准政府/金融系统
public class AESEncryptor {  private static final String ALGORITHM = "AES/GCM/NoPadding";  private static final int TAG_LENGTH = 128; // 认证标签长度  public static String encrypt(String plaintext, SecretKey key) {  byte[] iv = new byte[12]; // GCM推荐12字节IV  SecureRandom random = new SecureRandom();  random.nextBytes(iv);  Cipher cipher = Cipher.getInstance(ALGORITHM);  cipher.init(Cipher.ENCRYPT_MODE, key, new GCMParameterSpec(TAG_LENGTH, iv));  byte[] ciphertext = cipher.doFinal(plaintext.getBytes(StandardCharsets.UTF_8));  return Base64.getEncoder().encodeToString(iv) + ":" +  Base64.getEncoder().encodeToString(ciphertext);  }  // 解密方法类似...  
}

👉密钥管理方案对比

🌟方案三:数据遮蔽(黄金) 

数据库层实现数据遮蔽

-- 创建脱敏视图  
CREATE VIEW masked_customers AS  
SELECT  id,  CONCAT(SUBSTR(name,1,1), '***') AS name,  CONCAT(SUBSTR(mobile,1,3), '****', SUBSTR(mobile,8,4)) AS mobile  
FROM customers;  -- 使用列级权限控制  
GRANT SELECT (id, name, mobile) ON masked_customers TO test_user;

创建数据脱敏视图,在视图中将关键字段做遮蔽。

然后在后面需要用到这些字段的代码,需要统一从视图中查询数据。

代理层实现(ShardingSphere示例)

rules:  
-!MASK
tables:user:columns:phone:maskAlgorithm:phone_mask
maskAlgorithms:phone_mask:type:MD5props:salt:abcdefg123456

👉性能影响测试数据

数据量原始查询(ms)遮蔽查询(ms)性能损耗
10万12014520.8%
100万980115017.3%
1000万105001220016.2%

🌟方案四:数据替换(铂金级)

将原始数据和脱敏的数据保存到cache中,方便后面快速的做转换

 👉映射表设计

// 使用Guava Cache实现LRU缓存  
LoadingCache<String, String> dataMapping = CacheBuilder.newBuilder()  .maximumSize(100000)  .expireAfterAccess(30, TimeUnit.MINUTES)  .build(new CacheLoader<String, String>() {  public String load(String key) {  return UUID.randomUUID().toString().replace("-", "");  }  });  public String replaceData(String original) {  return dataMapping.get(original);  
}

👉替换流程

🌟方案五:动态脱敏(钻石) 

应用层实现(Spring AOP示例)

@Aspect  
@Component
publicclass DataMaskAspect {  @Around("@annotation(requiresMasking)")  public Object maskData(ProceedingJoinPoint joinPoint, RequiresMasking requiresMasking) throws Throwable {  Object result = joinPoint.proceed();  return mask(result, requiresMasking.type());  }  private Object mask(Object data, MaskType type) {  if (data instanceof User) {  User user = (User) data;  switch(type) {  case MOBILE:  user.setMobile(MaskUtil.maskMobile(user.getMobile()));  break;  case ID_CARD:  user.setIdCard(MaskUtil.maskIdCard(user.getIdCard()));  break;  }  }  return data;  }  
}

 在需要做数据脱敏的字段上技术RequiresMasking注解,然后在Spring的AOP拦截器中,通过工具类动态实现数据的脱敏。

数据库代理层架构

🌟方案六:K匿名化(王者)

假设医院发布就诊数据:

年龄性别疾病
25感冒
25发烧
25骨折

当K=3时,攻击者无法确定具体某人的疾病,因为3人都具有相同特征(25岁男性)。

👉实现步骤

👉代码示例

public class KAnonymity {  // 年龄泛化:精确值→范围  public static String generalizeAge(int age) {  int range = 10; // K=10  int lower = (age / range) * range;  int upper = lower + range - 1;  return lower + "-" + upper;  }  
}

假设range是K值,等于10。

generalizeAge方法中,通过一定的算法,将年龄的精确值,泛化成一个区间范围。

输入年龄28,返回20-29。

👉K值选择原则

🌟总结 

方案安全性性能可逆性适用场景
字符串替换★★★★★★不可逆日志/展示
加密算法★★★★★★可逆支付信息存储
数据遮蔽★★★

★★★

部分可逆数据库查询
数据替换★★★★

★★

可逆测试数据生成
动态脱敏★★★★★★★动态可控生产环境查询
K匿名化★★★★★不可逆医疗/位置数据

相关文章:

  • DockerFile实战
  • 护网行动——蓝队防守方案指南
  • 系分论文《论信息系统缓存的分析和应用》
  • AI日报 - 2025年05月19日
  • C++:⾯向对象的三⼤特性
  • TensorRT
  • 使用 Auto-Keras 进行自动化机器学习
  • 拓展运算符与数组解构赋值的区别
  • Vibe Coding:编程中的氛围与效率的艺术
  • java19
  • COCO数据集神经网络性能现状2025.5.18
  • React方向:react脚手架的使用
  • 单列集合——ArrayList,LinkedList,迭代器的底层原理和源码
  • 中山市东区信息学竞赛2025 题目解析
  • SAP集团内部公司间交易自动开票
  • SEO长尾词优化与提升路径
  • 8.1UDP点对点聊天小项目
  • Oc语言学习 —— Foundation框架总结
  • 系统架构设计(十三):虚拟机体系结构风格
  • 12.输出常量的两个小扩展
  • 波兰总统选举投票开始,将是对亲欧路线的一次严峻考验
  • 天问二号探测器顺利转入发射区,计划5月底择机发射
  • 纽约市长称墨海军帆船撞桥已致2人死亡,撞桥前船只疑似失去动力
  • 习近平就乌拉圭前总统穆希卡逝世向乌拉圭总统奥尔西致唁电
  • 悬疑剧背后的女编剧:创作的差异不在性别,而在经验
  • “朱雀玄武敕令”改名“周乔治华盛顿”?警方称未通过审核