当前位置: 首页 > news >正文

Python将Word转换为Excel

现有大量的Word文档,每个文档中有大量的表格,需要将其转换为Excel。

Python处理源码

# 需要安装pip install xlsxwriter
import pandas as pd
from docx import Document
from pathlib import Path
from datetime import datetimedef process_docx(filepath):# 处理Word文档的主函数doc = Document(filepath)# 示例处理逻辑:提取所有段落文本content = [p.text for p in doc.paragraphs if p.text.strip()]print(f"成功处理文档: {filepath}")data = []monitor_time = ""# 提取监测时间for paragraph in doc.paragraphs:# print(paragraph.text)if "第12次:" in paragraph.text:monitor_time = parse_monitor_time(paragraph.text)print(f"提取监测时间: {monitor_time}")break# 处理所有表格index = 0for table in doc.tables:# 检查是否为数据表格(包含房屋编号列)if len(table.columns) >= 7 and "成果表" in table.cell(0,0).text:# print(table.cell(0,0).text)for row in table.rows[2:]:  # 跳过标题行first_cell_text = row.cells[0].text.strip()  # 获取第一个单元格的文本并去除首尾空格if "备注" in first_cell_text:  # 如果第一个单元格包含"备注"continue  # 跳过该行cells = [cell.text.replace("\n", "").replace("\r", "").strip() for cell in row.cells]if len(cells) >= 7:  # 确保数据完整# 构建输出记录record = {'点号': f"{cells[0].replace(" ", "")}-{cells[1]}",'初始值': cells[2],'检测值': cells[3],'累计值': cells[4],'监测时间': monitor_time,'上次监测时间': "2025/6/17 03:00"  # 根据备注补充}# print(record)data.append(record)return datadef generate_excel(data, output_path):# 生成标准格式Exceldf = pd.DataFrame(data) # 补充固定字段df['备注'] = '无'# 字段顺序调整columns_order = [ '点号', '初始值', '检测值', '累计值', '监测时间', '上次监测时间', '备注' ]df = df.reindex(columns=columns_order)# 填充空值df['上次监测时间'] = '2025-06-01'# 保存Excel# df.to_excel(output_path, index=False)with pd.ExcelWriter(output_path, engine='xlsxwriter') as writer:df.to_excel(writer, index=False, sheet_name='Sheet1')  # 导出数据worksheet = writer.sheets['Sheet1']# 手动设置列宽(单位:字符宽度)worksheet.set_column('A:A', 38)  # 设置A列为15字符宽度worksheet.set_column('B:B', 12)  # 设置B列为10字符宽度print(f"Excel文件已生成: {output_path}")print(f"Excel开始生成")
filepath=r"C:\Users\admin\Desktop\test.docx"
output_path=r"C:\Users\admin\Desktop\test.xlsx"
data = process_docx(filepath)
generate_excel(data, output_path)
print(f"Excel生成结束")

输入Word文档

word文档格式如下所示
在这里插入图片描述

输出Excel文档

在这里插入图片描述

http://www.dtcms.com/a/302754.html

相关文章:

  • eclipse更改jdk环境和生成webservice客户端代码
  • Linux应用管理与YUM/DNF指南
  • 迅为RK3568开发板OpeHarmony学习开发手册-配置电源管理芯片和点亮HDMI屏幕-配置电源管理芯片
  • ARM share memory
  • 智慧工地系统:科技赋能建筑新未来
  • 电子签章(PDF)
  • 阿里云可观测 2025 年 6 月产品动态
  • 【机器学习-4】 | 集成学习 / 随机森林篇
  • 以科力锐为例介绍常见的数据中心4种灾备方式
  • HDFS Block与Spark的partition对比
  • MCU+RTOS调试
  • unisS5800XP-G交换机配置命令之端口篇
  • 经典算法题解析:从思路到实现,掌握核心编程思维
  • 分布式数据库中的“分布式连接”(Distributed Joins)
  • YOLOv8 基于RTSP流目标检测
  • 【C++详解】深入解析继承 类模板继承、赋值兼容转换、派生类默认成员函数、多继承与菱形继承
  • 把振动数据转成音频并播放
  • Kubernetes --存储入门
  • 实时YOLO目标检测与跟踪系统设计
  • [蓝牙通信] 临界区管理 | volatile | 同步(互斥锁与信号量) | handle
  • 谷歌浏览器深入用法全解析:解锁高效网络之旅
  • UVA11990 ``Dynamic‘‘ Inversion
  • kotlin基础【3】
  • 第一章:Go语言基础入门之流程控制
  • Power Query合并数据
  • 力扣 hot100 Day58
  • JAVA东郊到家按摩服务同款同城家政服务按摩私教茶艺师服务系统小程序+公众号+APP+H5
  • EXCEL 怎么把汉字转换成拼音首字母
  • 10 - 大语言模型 —Transformer 搭骨架,BERT 装 “双筒镜”|解密双向理解的核心
  • Java-数构排序