当前位置：首页 > wzjs >正文

邢台哪个公司做网站好天津外贸seo推广

wzjs 2025/8/26 11:19:59

邢台哪个公司做网站好,天津外贸seo推广,西城改版网站,施工企业怎样报考a证*用Python将 PDF 中的表格提取为 Excel/CSV，*支持文本型 PDF 和扫描件/图片型 PDF（需 OCR 识别）。程序包含以下功能： 1.自动检测 PDF 类型（文本 or 扫描件） 2.提取表格数据并保存为 Excel/CSV 3.处理多页…

*用Python将 PDF 中的表格提取为 Excel/CSV，*支持文本型 PDF 和扫描件/图片型 PDF（需 OCR 识别）。程序包含以下功能：

1.自动检测 PDF 类型（文本 or 扫描件）
2.提取表格数据并保存为 Excel/CSV
3.处理多页 PDF
4.命令行交互 & 图形界面（可选）

1. 安装依赖库

运行前，先安装所需库：

pip install tabula-py pandas pytesseract pdf2image opencv-python pillow

2. 完整代码

导入相关模块

import os
import pandas as pd
import tabula
from pdf2image import convert_from_path
import pytesseract
import cv2
import tempfile
import argparse

定义函数

def pdf_to_excel(pdf_path, output_path, use_ocr=False):

    """将 PDF 中的表格转换为 Excel 文件:param pdf_path: PDF 文件路径:param output_path: 输出 Excel/CSV 路径:param use_ocr: 是否强制使用 OCR（针对扫描件）"""try:# 检查输出格式file_ext = os.path.splitext(output_path)[1].lower()if file_ext not in ['.xlsx', '.csv']:raise ValueError("输出文件格式必须是 .xlsx 或 .csv")

        # 尝试直接提取文本表格（非扫描件）if not use_ocr:try:print("尝试提取文本表格...")dfs = tabula.read_pdf(pdf_path, pages='all', multiple_tables=True)if not dfs:raise RuntimeError("未检测到表格，可能为扫描件图片。")# 合并所有表格页combined_df = pd.concat(dfs, ignore_index=True)if file_ext == '.xlsx':combined_df.to_excel(output_path, index=False)else:combined_df.to_csv(output_path, index=False)print(f"转换成功！结果已保存至: {output_path}")returnexcept Exception as e:print(f"文本提取失败（可能为扫描件），尝试 OCR: {e}")use_ocr = True

        # OCR 处理扫描件/图片if use_ocr:print("正在使用 OCR 识别扫描件...")with tempfile.TemporaryDirectory() as temp_dir:# 将 PDF 转换为图片images = convert_from_path(pdf_path, output_folder=temp_dir)all_text = []for i, img in enumerate(images):img_path = os.path.join(temp_dir, f"page_{i+1}.jpg")img.save(img_path, 'JPEG')# 使用 OpenCV 增强图像（可选）img_cv = cv2.imread(img_path)gray = cv2.cvtColor(img_cv, cv2.COLOR_BGR2GRAY)thresh = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)[1]# OCR 识别text = pytesseract.image_to_string(thresh, config='--psm 6')all_text.append(text)

                # 将识别结果保存为表格text_combined = "\n".join(all_text)lines = [line.split() for line in text_combined.split('\n') if line.strip()]df = pd.DataFrame(lines)if file_ext == '.xlsx':df.to_excel(output_path, index=False, header=False)else:df.to_csv(output_path, index=False, header=False)print(f"OCR 转换完成！结果已保存至: {output_path}")

    except Exception as e:print(f"转换失败: {e}")

if __name__ == "__main__":# 命令行参数解析parser = argparse.ArgumentParser(description="PDF 表格提取工具")parser.add_argument("pdf_path", help="输入的 PDF 文件路径")parser.add_argument("output_path", help="输出的 Excel/CSV 文件路径")parser.add_argument("--ocr", action="store_true", help="强制使用 OCR（针对扫描件）")args = parser.parse_args()# 运行转换pdf_to_excel(args.pdf_path, args.output_path, args.ocr)

命令行运行

# 默认自动检测 PDF 类型
python pdf_to_excel.py input.pdf output.xlsx# 强制使用 OCR（针对扫描件）
python pdf_to_excel.py scanned.pdf output.csv --ocr

直接调用函数

pdf_to_excel("input.pdf", "output.xlsx", use_ocr=False)

重点说明：
文本型 PDF：使用 tabula-py 直接提取表格结构。
扫描件/图片 PDF：
通过 pdf2image 将 PDF 转为图片。
使用 OpenCV 对图像预处理（二值化、去噪）。
调用 pytesseract（Tesseract OCR）识别文字并生成表格。

扫描件质量：OCR 精度受图片清晰度影响，建议高分辨率 PDF。

复杂表格：若表格有合并单元格，可能需要手动调整输出结果。

中文支持：确保 Tesseract 安装了中文语言包（chi_sim）。

如果需要进一步优化（如自定义表格解析逻辑），可以在此基础上扩展！

查看全文

http://www.dtcms.com/wzjs/493312.html

建网站对企业的作用做广告推广哪个平台好

八年级信息上册如何做网站com天堂网

山东省工程建设信息官方网站网络营销推广平台

360建站网站模板下载

重庆模板网站建设怎么样网站死链检测工具

教育网站建设方案电商sem是什么意思

logo网站找人帮忙注册app推广

在线股票交易网站开发武汉网站推广公司

国外图片设计网站有哪些网络推广公司名字大全

医药招商网站建设免费舆情网站下载大全最新版

网站备案多少钱seo品牌推广方法

艾辰做网站做优化关键词

企业做网站需注意什么seo优化博客

用什么软件做网站图片百度学术论文查重官网

公司网站备案电话外贸网站推广方式

网站建设价格与方案如何在百度上发布自己的广告

郑州营销型网站制作策划成都网站建设

网站制作与网站建设实际报告2345网址导航怎么样

企业网站源码 java爱站网官网关键词

株洲在线论坛二手市场陕西seo顾问服务

东莞网站制作十强做网站公司

能赚钱的网站怎么做企业网站策划

有哪些做问卷调查赚钱的网站6英文seo推广

校园网站模版百度链接

南昌网站建设基本流程线上培训机构

北京最好的网站建设公司长春网站制作方案定制

宣讲家网站官网加强作风建设网站seo推广多少钱

事业单位网站模板seo中文意思是

学做网页设计标题关键词优化报价

asp.net 旅游网站开发长沙百度网站快速排名

1. 安装依赖库

2. 完整代码

相关文章：