当前位置：首页 > wzjs >正文

邢台哪个公司做网站好网站优化技巧

wzjs 2025/7/28 21:34:39

邢台哪个公司做网站好,网站优化技巧,网站推广报告,青州建设局网站*用Python将 PDF 中的表格提取为 Excel/CSV，*支持文本型 PDF 和扫描件/图片型 PDF（需 OCR 识别）。程序包含以下功能： 1.自动检测 PDF 类型（文本 or 扫描件） 2.提取表格数据并保存为 Excel/CSV 3.处理多页…

*用Python将 PDF 中的表格提取为 Excel/CSV，*支持文本型 PDF 和扫描件/图片型 PDF（需 OCR 识别）。程序包含以下功能：

1.自动检测 PDF 类型（文本 or 扫描件）
2.提取表格数据并保存为 Excel/CSV
3.处理多页 PDF
4.命令行交互 & 图形界面（可选）

1. 安装依赖库

运行前，先安装所需库：

pip install tabula-py pandas pytesseract pdf2image opencv-python pillow

2. 完整代码

导入相关模块

import os
import pandas as pd
import tabula
from pdf2image import convert_from_path
import pytesseract
import cv2
import tempfile
import argparse

定义函数

def pdf_to_excel(pdf_path, output_path, use_ocr=False):

    """将 PDF 中的表格转换为 Excel 文件:param pdf_path: PDF 文件路径:param output_path: 输出 Excel/CSV 路径:param use_ocr: 是否强制使用 OCR（针对扫描件）"""try:# 检查输出格式file_ext = os.path.splitext(output_path)[1].lower()if file_ext not in ['.xlsx', '.csv']:raise ValueError("输出文件格式必须是 .xlsx 或 .csv")

        # 尝试直接提取文本表格（非扫描件）if not use_ocr:try:print("尝试提取文本表格...")dfs = tabula.read_pdf(pdf_path, pages='all', multiple_tables=True)if not dfs:raise RuntimeError("未检测到表格，可能为扫描件图片。")# 合并所有表格页combined_df = pd.concat(dfs, ignore_index=True)if file_ext == '.xlsx':combined_df.to_excel(output_path, index=False)else:combined_df.to_csv(output_path, index=False)print(f"转换成功！结果已保存至: {output_path}")returnexcept Exception as e:print(f"文本提取失败（可能为扫描件），尝试 OCR: {e}")use_ocr = True

        # OCR 处理扫描件/图片if use_ocr:print("正在使用 OCR 识别扫描件...")with tempfile.TemporaryDirectory() as temp_dir:# 将 PDF 转换为图片images = convert_from_path(pdf_path, output_folder=temp_dir)all_text = []for i, img in enumerate(images):img_path = os.path.join(temp_dir, f"page_{i+1}.jpg")img.save(img_path, 'JPEG')# 使用 OpenCV 增强图像（可选）img_cv = cv2.imread(img_path)gray = cv2.cvtColor(img_cv, cv2.COLOR_BGR2GRAY)thresh = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)[1]# OCR 识别text = pytesseract.image_to_string(thresh, config='--psm 6')all_text.append(text)

                # 将识别结果保存为表格text_combined = "\n".join(all_text)lines = [line.split() for line in text_combined.split('\n') if line.strip()]df = pd.DataFrame(lines)if file_ext == '.xlsx':df.to_excel(output_path, index=False, header=False)else:df.to_csv(output_path, index=False, header=False)print(f"OCR 转换完成！结果已保存至: {output_path}")

    except Exception as e:print(f"转换失败: {e}")

if __name__ == "__main__":# 命令行参数解析parser = argparse.ArgumentParser(description="PDF 表格提取工具")parser.add_argument("pdf_path", help="输入的 PDF 文件路径")parser.add_argument("output_path", help="输出的 Excel/CSV 文件路径")parser.add_argument("--ocr", action="store_true", help="强制使用 OCR（针对扫描件）")args = parser.parse_args()# 运行转换pdf_to_excel(args.pdf_path, args.output_path, args.ocr)

命令行运行

# 默认自动检测 PDF 类型
python pdf_to_excel.py input.pdf output.xlsx# 强制使用 OCR（针对扫描件）
python pdf_to_excel.py scanned.pdf output.csv --ocr

直接调用函数

pdf_to_excel("input.pdf", "output.xlsx", use_ocr=False)

重点说明：
文本型 PDF：使用 tabula-py 直接提取表格结构。
扫描件/图片 PDF：
通过 pdf2image 将 PDF 转为图片。
使用 OpenCV 对图像预处理（二值化、去噪）。
调用 pytesseract（Tesseract OCR）识别文字并生成表格。

扫描件质量：OCR 精度受图片清晰度影响，建议高分辨率 PDF。

复杂表格：若表格有合并单元格，可能需要手动调整输出结果。

中文支持：确保 Tesseract 安装了中文语言包（chi_sim）。

如果需要进一步优化（如自定义表格解析逻辑），可以在此基础上扩展！

查看全文

http://www.dtcms.com/wzjs/130909.html

网站首页被降权怎么做seo全网优化推广

网站域名做哪个会计科目软文广告素材

管理型网站建设费用明细如何建立一个自己的网站?

做好政府网站建设友情链接交换软件

网站建设如何做报价重庆seo技术教程

计算机课程网站建设实训报告总结河北seo网络优化师

衡水哪儿做网站便宜南宁seo网络推广

白山住房与城乡建设局网站做好网络推广

上海网站制作公司有哪些世界搜索引擎公司排名

重庆开县网站建设报价网站推广和优化的原因网络营销

乌克兰网站建设温州企业网站排名优化

渭南网站建设风尚网络seo自然优化排名技巧

服装公司网站建设规划方案十大seo公司

产品vi设计哪家好seo教学网seo

昌黎网站建设国内真正的永久免费建站

舟山网站制作网络营销价格策略有哪些

山西企业模板建站理发美发培训学校

网页设计图片自适应seo查询工具

建设银行网站信任关键词排名批量查询软件

台州网站制作系统分析怎么写宁波厂家关键词优化

专业网站建设制作公司网站怎么做

做网站建设网站制作市场营销网站

县级门户网站建设运营成本西安网站seo优化公司

在猪八戒网站如何做兼职营销型网站建设服务

灰色项目网站代做网络营销心得体会1000字

设计海报网站西安网站seo排名优化

用qq空间做网站中文域名注册管理中心

网站设计专业公司价格seo搜索引擎优化工资多少钱

网站技术支持是什么淄博信息港聊天室网址

门户网站制作全包百度竞价排名背后的伦理问题

1. 安装依赖库

2. 完整代码

相关文章：