当前位置: 首页 > wzjs >正文

男男床做视频网站在线百度竞价推广出价技巧

男男床做视频网站在线,百度竞价推广出价技巧,杭州 seo网站建设 网络服务,对电子商务网站建设与维护的总结使用Python与正则表达式高效提取Excel中的票号数据 一、需求 本文将介绍如何利用Python的Pandas库和正则表达式,快速实现票号这一数据清洗任务,并将结果整理为规范的表格结构。 在数据处理场景中,从非结构化文本里提取特定格式的信息是常见…

使用Python与正则表达式高效提取Excel中的票号数据

一、需求

本文将介绍如何利用Python的Pandas库和正则表达式,快速实现票号这一数据清洗任务,并将结果整理为规范的表格结构。

在数据处理场景中,从非结构化文本里提取特定格式的信息是常见需求。例如在物流工单、票务系统的Excel记录中,我们经常需要从冗长的摘要文本里提取出票号(如快递单号、订单号等)。
在这里插入图片描述

二、核心代码解析

我们通过一段实际代码来演示整个处理流程,代码逻辑分为数据读取正则匹配结果整理三个核心步骤。

1. 导入依赖库

import pandas as pd
import re
  • pandas:用于Excel文件的读写和数据处理
  • re:正则表达式模块,用于文本模式匹配

2. 读取原始数据

df = pd.read_excel('报销.xlsx')
  • 使用pd.read_excel读取原始Excel文件,假设数据存储在默认的第一个工作表
  • 原始数据结构:假设第一列为包含票号的摘要文本(如“处理票号1234567890的问题”)

3. 预编译正则表达式

ticket_pattern = re.compile(r'\b\d{8,30}\b')
  • 模式解析
    • \b:单词边界,确保匹配独立数字串
    • \d{8,30}:匹配8到30位的连续数字(可根据实际票号长度调整)
  • 预编译优势:避免重复编译正则表达式,提升匹配性能

4. 遍历文本并提取票号

result_data = []
for text in df.iloc[:, 0].astype(str):tickets = ticket_pattern.findall(text)if tickets:# 处理第一条记录(包含摘要和首个票号)result_data.append({'摘要': text, '票号': tickets[0]})# 处理剩余票号(摘要留空)result_data.extend({'摘要': '', '票号': ticket} for ticket in tickets[1:])else:# 无票号时保留摘要result_data.append({'摘要': text, '票号': ''})
  • 关键逻辑
    • df.iloc[:, 0]:选取第一列数据(假设票号在第一列)
    • astype(str):确保所有数据转为字符串类型,避免类型错误
    • findall方法:返回所有匹配的票号列表
    • 数据结构设计
      • 首个票号保留对应的摘要文本
      • 后续票号共享同一摘要(摘要留空以节省空间)
      • 无票号记录保留原始摘要,票号字段为空

5. 保存结果到Excel

pd.DataFrame(result_data).to_excel('output4.xlsx', index=False)
  • 将结果列表转换为DataFrame并保存为新Excel文件
  • index=False参数:禁止生成默认行索引列

三、技术关键点

1. 正则表达式优化技巧

  • 动态调整匹配模式:若票号包含字母(如“YT123456”),可修改模式为:
    r'\b[A-Za-z0-9]{8,30}\b'  # 匹配字母数字混合字符串
    
  • 边界控制:使用\b避免匹配长数字串中的子串(如从“123456789012”中提取完整票号,而非截断部分)

2. Pandas数据处理技巧

  • 向量化操作:虽然本例使用循环遍历,对于大规模数据可尝试向量化处理(如df[0].apply())以提升速度
  • 数据类型管理:通过astype(str)统一处理可能的数值型、日期型数据,避免正则匹配错误

3. 多票号处理逻辑

  • 当单条摘要包含多个票号时(如“涉及票号123456和789012”),代码会将首个票号与摘要关联,后续票号以“摘要为空+独立票号”的形式展示,便于后续数据统计。

需要源码的,加同名ggh,进行获取
在这里插入图片描述

http://www.dtcms.com/wzjs/275529.html

相关文章:

  • 广州网站建设公司有哪些青岛网站建设技术外包
  • 出售东西的网站怎么做百度精简版网页入口
  • 潜江资讯网电脑版杭州seo渠道排名
  • 太原网站如何制作成都网站搜索排名优化公司
  • 织梦教育网站开发app推广软件
  • 网站建设公司怎么运营博客推广工具
  • 教育网站解决方案国家免费职业技能培训官网
  • 武汉学习网站制作seo如何建立优化网站
  • 公司给了个邮箱地址怎么登录长沙网站推广和优化
  • 做网站需要什么专业方向的员工抖音引流推广免费软件app
  • 江西省政府网站集约化建设方案服务营销案例
  • 宝安画册设计公司西安seo报价
  • 珠海培训网站建设app注册推广拉人
  • 什么做网站统计好广东seo推广哪里好
  • 魔方网站建设成都百度seo公司
  • 企业网站建设的申请产品线上营销有哪些方式
  • wordpress 搜索乱码代做seo排名
  • 做外卖有哪些网站软文外链购买平台
  • 关于建设工程资料的网站b站视频推广网站
  • wordpress mangoseo怎样优化网站
  • 全国企业工商信息查询系统关键词优化排名网站
  • 设计师最常用的论坛南京seo新浪
  • 安徽省做网站市场营销平台
  • 网站集约化建设优点下载百度到桌面上
  • 网站结构分类线下营销推广方式有哪些
  • 效果图怎么做出来的优化网站的方法有哪些
  • 长沙做网站建设公司排名网站关键词优化排名外包
  • .net网站开发书轻松seo优化排名
  • 自适应网站怎么做百姓网推广怎么收费标准
  • b2b网站方案网站seo网络优化