当前位置: 首页 > wzjs >正文

怎么敲代码做网站余姚关键词优化公司

怎么敲代码做网站,余姚关键词优化公司,网站前端后端分开做可以吗,手机wordpress上传失败上一节中是基于PaddleOCR对图片中的excel进行识别并转换成word优化,本节改变思路,直接从pdf中读取表格的信息,具体思路如下所述。 PDF中的表格数据如下截图所示: 一、基于tabula从PDF中提取表格 df_list tabula.read_pdf("…

        上一节中是基于PaddleOCR对图片中的excel进行识别并转换成word优化,本节改变思路,直接从pdf中读取表格的信息,具体思路如下所述。

        PDF中的表格数据如下截图所示:

        一、基于tabula从PDF中提取表格

df_list = tabula.read_pdf("excel.pdf", pages="all", multiple_tables=True, stream=True)

        二、获取表格中的数据

for table_index, table in enumerate(df_list):# 获取行数和列数rows, cols = table.shapeprint(f"表格 {table_index + 1} 的行数: {rows}, 列数: {cols}")heading_cells = []for col_num, column_name in enumerate(table.columns):heading_cells.append(column_name)table_data.append(heading_cells)for row_index, row in table.iterrows():table_data.append(row.tolist())

table_data数据格式:

 [['订单号', '商品名称', '单价', '总价', '购买日期', '收货地址'], [nan, nan, '(元)', '(元)', nan, nan], ['20250423A', '月之暗面笔记本', '50', '100', '2025-04-23', '北京市海淀区'], ['XXXXXX323', nan, nan, nan, nan, '中关村大街 1 号'], [nan, nan, nan, nan, nan, 'XXXXXXXX121RWW'], ['20250423B', '月之暗面 T 恤', '80', '80', '2025-04-23', '上海市浦东新区'], ['YYYY987', nan, nan, nan, nan, '陆家嘴金融区'], [nan, nan, nan, nan, nan, '112DSDCWE2DFDWEWE']]
table_data: [['订单号', '商品名称', '单价(元)', '总价(元)', '购买日期', '收货地址'], ['20250423AXXXXXX323', '月之暗面笔记本', '50', '100', '2025-04-23', '北京市海淀区中关村大街 1 号XXXXXXXX121RWW'], ['20250423BYYYY987', '月之暗面 T 恤', '80', '80', '2025-04-23', '上海市浦东新区陆家嘴金融区112DSDCWE2DFDWEWE']]

        三、根据表格中的必填项内容去判断是否为nan,去合并单元格

        具体思路:比如订单编号和商品名称不能为空,那么从最后一行开始向上遍历列表,检查每一行的第一列和第二列是否为空(即是否为   NaN  )。如果为空,则将该行的数据合并到上一行对应的单元格中,并删除当前行。

def handle_table(table_data):for i in range(len(table_data) - 1, 0, -1):if table_data[i][0] in [None, np.nan, ""] or table_data[i][1] in [None,np.nan,"",]:for j in range(len(table_data[i])):if table_data[i][j] not in [None,np.nan,"",]:  # 只有当单元格不为空时才合并table_data[i - 1][j] = f"{table_data[i - 1][j]}{table_data[i][j]}".strip()# 删除当前行del table_data[i]

        四、生成word

def create_table_and_fill_data(data, output_file):"""在 Word 文档中插入表格并填充数据:param data: 表格数据:param output_file: 输出文件路径"""# 创建一个新的 Word 文档doc = Document()# 添加一个标题sssdoc.add_heading("测试XX信息表", level=1)# 创建表格table = doc.add_table(rows=len(data), cols=len(data[0]))# 填充表格数据for row_index, row_data in enumerate(data):for col_index, cell_text in enumerate(row_data):cell = table.cell(row_index, col_index)cell.text = str(cell_text)set_cell_borders(cell, border_color="FF0000", row_height=300)# 设置表格边框颜色# 保存 Word 文档doc.save(output_file)

补充画表格边框函数set_cell_borders

def set_cell_borders(cell, border_color="000000", row_height=None):"""设置单元格的边框颜色:param cell: 单元格对象:param border_color: 边框颜色,默认为黑色"""tc = cell._elementtcPr = tc.get_or_add_tcPr()tcBorders = OxmlElement("w:tcBorders")for border_name in ("top", "left", "bottom", "right"):border = OxmlElement(f"w:{border_name}")border.set(qn("w:val"), "single")border.set(qn("w:sz"), "4")  # 边框大小border.set(qn("w:space"), "0")border.set(qn("w:color"), border_color)tcBorders.append(border)tcPr.append(tcBorders)# 设置内容居中显示for paragraph in cell.paragraphs:for run in paragraph.runs:run.font.size = paragraph.style.font.size  # 保持字体大小一致paragraph.alignment = 1  # 1 表示居中对齐# 设置行高if row_height is not None:tr = cell._element.getparent()  # 获取行元素trPr = tr.get_or_add_trPr()trHeight = OxmlElement("w:trHeight")trHeight.set(qn("w:val"), str(row_height))trPr.append(trHeight)

        5、效果展示

6、完整代码

import tabula
import numpy as np
from docx import Document
from docx.oxml.ns import qn
from docx.oxml import OxmlElementdef get_table_data(df_list):# 遍历每个表格for table_index, table in enumerate(df_list):# 获取行数和列数rows, cols = table.shapeprint(f"表格 {table_index + 1} 的行数: {rows}, 列数: {cols}")heading_cells = []for col_num, column_name in enumerate(table.columns):heading_cells.append(column_name)table_data.append(heading_cells)for row_index, row in table.iterrows():table_data.append(row.tolist())def handle_table(table_data):for i in range(len(table_data) - 1, 0, -1):if table_data[i][0] in [None, np.nan, ""] or table_data[i][1] in [None,np.nan,"",]:for j in range(len(table_data[i])):if table_data[i][j] not in [None,np.nan,"",]:  # 只有当单元格不为空时才合并table_data[i - 1][j] = f"{table_data[i - 1][j]}{table_data[i][j]}".strip()# 删除当前行del table_data[i]def set_cell_borders(cell, border_color="000000", row_height=None):"""设置单元格的边框颜色:param cell: 单元格对象:param border_color: 边框颜色,默认为黑色"""tc = cell._elementtcPr = tc.get_or_add_tcPr()tcBorders = OxmlElement("w:tcBorders")for border_name in ("top", "left", "bottom", "right"):border = OxmlElement(f"w:{border_name}")border.set(qn("w:val"), "single")border.set(qn("w:sz"), "4")  # 边框大小border.set(qn("w:space"), "0")border.set(qn("w:color"), border_color)tcBorders.append(border)tcPr.append(tcBorders)# 设置内容居中显示for paragraph in cell.paragraphs:for run in paragraph.runs:run.font.size = paragraph.style.font.size  # 保持字体大小一致paragraph.alignment = 1  # 1 表示居中对齐# 设置行高if row_height is not None:tr = cell._element.getparent()  # 获取行元素trPr = tr.get_or_add_trPr()trHeight = OxmlElement("w:trHeight")trHeight.set(qn("w:val"), str(row_height))trPr.append(trHeight)def create_table_and_fill_data(data, output_file):"""在 Word 文档中插入表格并填充数据:param data: 表格数据:param output_file: 输出文件路径"""# 创建一个新的 Word 文档doc = Document()# 添加一个标题sssdoc.add_heading("测试XX信息表", level=1)# 创建表格table = doc.add_table(rows=len(data), cols=len(data[0]))# 填充表格数据for row_index, row_data in enumerate(data):for col_index, cell_text in enumerate(row_data):cell = table.cell(row_index, col_index)cell.text = str(cell_text)set_cell_borders(cell, border_color="FF0000", row_height=300)# 设置表格边框颜色# 保存 Word 文档doc.save(output_file)pdf_file = "excelv2.pdf"
output_file = "order0429.docx"  # 输出的 Word 文件路径
table_data = []
# 使用tabula从PDF中提取表格
df_list = tabula.read_pdf(pdf_file, pages="all", multiple_tables=True, stream=True)
get_table_data(df_list)
handle_table(table_data)
create_table_and_fill_data(table_data, output_file)

http://www.dtcms.com/wzjs/108929.html

相关文章:

  • 怎么做网站的项目预算软文广告怎么写
  • 能播放优酷视频的网站怎样做百度网盘怎么提取别人资源
  • 做网站的软件多少钱青岛seo服务
  • 做网站需要资料怎样在百度上建立网站
  • wordpress备份还原苏州seo关键词优化推广
  • 解析网站咋做的东莞搜索seo网站关键词优化
  • 温州市城乡建设建档案馆网站百度竞价排名什么意思
  • 沭阳各乡镇做网站我是做推广的怎么找客户
  • 网站特效模板下载山东百度推广代理
  • 详情页设计素材seo官网
  • 网站欢迎页设计网站推广及seo方案
  • 建外贸网站 东莞淘宝seo优化
  • 东莞网站建设找谁最新网站推广方法
  • 400全国服务热线代理顺德手机网站建设百度全网营销
  • 关于做甜品的网站seo报告
  • 在建设部网站首页郑州seo服务
  • 可视化建站网站源码seo外链要做些什么
  • 网络营销的主要形式有建设网站免费入驻的卖货平台
  • app订制百中搜优化软件靠谱吗
  • 灰色网站是什么东莞网络科技公司排名
  • 电竞竞猜网站 建设今日最新国内新闻重大事件
  • 长沙网站推广¥做下拉去118cr爱站长尾词
  • 辽宁高端网站建设2022年app拉新推广项目
  • 什么是电商行业常州seo收费
  • 学校网站平台建设方案自己怎么开发app软件
  • 万网个人网站建设教程公司网站制作
  • 顺企网官网下载安装南京seo排名优化公司
  • 长春企业建站系统模板营销策划书
  • 网站建设数据库ER图怎么画北京网站优化合作
  • asp网站如何安装山东seo百度推广