当前位置: 首页 > news >正文

关于多类型数据划分清洗的整理

一.将字符串不同类型拆分

import redef split_string(s):# 去除多余空格s = re.sub(r'\s+', ' ', s).strip()# 拆分字符串s1 = re.sub(r'[\u4e00-\u9fff0-9]', '', s).strip()  # 删除中文和数字,保留英文s2 = re.sub(r'[a-zA-Z0-9]', '', s).strip()  # 删除英文和数字,保留中文s3 = re.sub(r'[\u4e00-\u9fffa-zA-Z]', '', s).strip()  # 删除中文和英文,保留数字return s1, s2, s3# 测试
s = "     sdd dsd   新的谁 说的   12515 "
s1, s2, s3 = split_string(s)
print(f"s1 = '{s1}'")
print(f"s2 = '{s2}'")
print(f"s3 = '{s3}'")

二.将长字符串各类型拆分

import redef split_string(s):# 去除多余空格s = re.sub(r'\s+', ' ', s).strip()# 拆分字符串s1 = re.sub(r'[\u4e00-\u9fff0-9]', '', s).strip()  # 英文s2 = re.sub(r'[a-zA-Z0-9]', '', s).strip()  # 中文s3 = re.sub(r'[a-zA-Z\u4e00-\u9fff]', '', s).strip()  # 数字return s1, s2, s3s = ''' Activity  发现问题的活动Trigger  触发因素Impact  结果影响Phase Found  问题发现阶段Severity  严重程度Target  问题根源对象Defect Type  缺陷类型Content Type  缺陷内容类型Qualifier  缺陷界定Source  问题责任来源Age  缺陷年龄Location  问题位置
'''print(s)s1, s2, s3 = split_string(s)
print(f"s1 = '{s1}'")
print(f"s2 = '{s2}'")
print(f"s3 = '{s3}'")

三.将长字符串各类型拆分再整理

import redef split_string(s):# 去除多余空格s = re.sub(r'\s+', ' ', s).strip()# 拆分字符串s1 = re.sub(r'[\u4e00-\u9fff0-9]', '', s).strip()  # 英文s2 = re.sub(r'[a-zA-Z0-9]', '', s).strip()  # 中文s3 = re.sub(r'[a-zA-Z\u4e00-\u9fff]', '', s).strip()  # 数字return s1, s2, s3def chaihuan(s1,s2,s3):# 去除多余空格s1 = ' '.join(s1.split())s2 = ' '.join(s2.split())s3 = ' '.join(s3.split())# 按照空格拆分字符串s1,生成列表c1c1 = s1.split(' ')c2 = s2.split(' ')c3 = s3.split(' ')# 将字符串s1中的空格替换为换行符,生成字符串t1t1 = s1.replace(' ', '\n')t2 = s2.replace(' ', '\n')t3 = s3.replace(' ', '\n')# 输出结果print("c1:", c1)print("c2:", c2)print("c3:", c3)print("t1:\n", t1)print("t2:\n", t2)print("t3:\n", t3)return c1,c2,c3,t1,t2,t3s = ''' Activity  发现问题的活动Trigger  触发因素Impact  结果影响Phase Found  问题发现阶段Severity  严重程度Target  问题根源对象Defect Type  缺陷类型Content Type  缺陷内容类型Qualifier  缺陷界定Source  问题责任来源Age  缺陷年龄Location  问题位置
'''print(f'{s}\n')
print('--------------------------------')
s1, s2, s3 = split_string(s)
print(f"s1 = '{s1}'\n")
print(f"s2 = '{s2}'\n")
print(f"s3 = '{s3}'\n")
print("------------拆换开始----------------------")
c1, c2, c3, t1, t2, t3 = chaihuan(s1, s2, s3)
print("------------各自明细----------------------")
print(f"c1 = '{c1}'\n")
print(f"c2 = '{c2}'\n")
print(f"c3 = '{c3}'\n")
print(f"t1 = '{t1}'\n")
print(f"t2 = '{t2}'\n")
print(f"t3 = '{t3}'\n")

整理不易,诚望各位看官点赞 收藏 评论 予以支持,这将成为我持续更新的动力源泉。若您在阅览时存有异议或建议,敬请留言指正批评,让我们携手共同学习,共同进取,吾辈自当相互勉励!

相关文章:

  • ISO 20000体系:服务请求管理、问题管理、事件管理区别与联系
  • BAT32G113 发送互补PWM
  • 第十九章:数据治理之数据指标(一):数据指标工具之【指标口径管理系统】与【指标数据查询系统】
  • (九)PMSM驱动控制学习---无感控制之高阶滑膜观测器
  • obsidian 中的查找和替换插件,支持正则
  • STL-从list节点创建和释放展开(内存管理)
  • Linux系统编程-DAY04
  • C语言初阶--操作符
  • 升级Win11后VMware虚拟机屏幕调整问题
  • 领域驱动设计与COLA框架:从理论到实践的落地之路
  • 数字信号处理大实验2.1(基础) 快速傅里叶变换与FFT的时域频域对称性质
  • 微软Build 2025五大AI发布
  • Spring Cloud项目登录认证从JWT切换到Redis + UUID Token方案
  • 前置过滤器和净水机安哪个?
  • git checkout 通配符
  • Kafka Consumer工作流程
  • JVM 的类加载机制
  • 贪心算法应用:贝尔曼-福特松弛问题详解
  • 贪心算法应用:Ford-Fulkerson最大流问题详解
  • 自训练NL-SQL模型
  • iis7.5配置网站/网站seo 工具
  • 靖江市网站建设/网站推广的基本手段有哪些
  • 学做彩票网站/近一周的新闻大事热点
  • 深圳做商城网站建设/廊坊seo快速排名
  • 河南国基建设集团--官方网站/营销型公司网站建设
  • 网站页面布局分析/广告软文范例200字