当前位置：首页 > wzjs >正文

手工做衣服的网站桂林网站设计制作

wzjs 2025/7/18 15:39:08

手工做衣服的网站,桂林网站设计制作,网站浮动qq,民权网站建设*用Python将 PDF 中的表格提取为 Excel/CSV，*支持文本型 PDF 和扫描件/图片型 PDF（需 OCR 识别）。程序包含以下功能： 1.自动检测 PDF 类型（文本 or 扫描件） 2.提取表格数据并保存为 Excel/CSV 3.处理多页…

*用Python将 PDF 中的表格提取为 Excel/CSV，*支持文本型 PDF 和扫描件/图片型 PDF（需 OCR 识别）。程序包含以下功能：

1.自动检测 PDF 类型（文本 or 扫描件）
2.提取表格数据并保存为 Excel/CSV
3.处理多页 PDF
4.命令行交互 & 图形界面（可选）

1. 安装依赖库

运行前，先安装所需库：

pip install tabula-py pandas pytesseract pdf2image opencv-python pillow

2. 完整代码

导入相关模块

import os
import pandas as pd
import tabula
from pdf2image import convert_from_path
import pytesseract
import cv2
import tempfile
import argparse

定义函数

def pdf_to_excel(pdf_path, output_path, use_ocr=False):

    """将 PDF 中的表格转换为 Excel 文件:param pdf_path: PDF 文件路径:param output_path: 输出 Excel/CSV 路径:param use_ocr: 是否强制使用 OCR（针对扫描件）"""try:# 检查输出格式file_ext = os.path.splitext(output_path)[1].lower()if file_ext not in ['.xlsx', '.csv']:raise ValueError("输出文件格式必须是 .xlsx 或 .csv")

        # 尝试直接提取文本表格（非扫描件）if not use_ocr:try:print("尝试提取文本表格...")dfs = tabula.read_pdf(pdf_path, pages='all', multiple_tables=True)if not dfs:raise RuntimeError("未检测到表格，可能为扫描件图片。")# 合并所有表格页combined_df = pd.concat(dfs, ignore_index=True)if file_ext == '.xlsx':combined_df.to_excel(output_path, index=False)else:combined_df.to_csv(output_path, index=False)print(f"转换成功！结果已保存至: {output_path}")returnexcept Exception as e:print(f"文本提取失败（可能为扫描件），尝试 OCR: {e}")use_ocr = True

        # OCR 处理扫描件/图片if use_ocr:print("正在使用 OCR 识别扫描件...")with tempfile.TemporaryDirectory() as temp_dir:# 将 PDF 转换为图片images = convert_from_path(pdf_path, output_folder=temp_dir)all_text = []for i, img in enumerate(images):img_path = os.path.join(temp_dir, f"page_{i+1}.jpg")img.save(img_path, 'JPEG')# 使用 OpenCV 增强图像（可选）img_cv = cv2.imread(img_path)gray = cv2.cvtColor(img_cv, cv2.COLOR_BGR2GRAY)thresh = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)[1]# OCR 识别text = pytesseract.image_to_string(thresh, config='--psm 6')all_text.append(text)

                # 将识别结果保存为表格text_combined = "\n".join(all_text)lines = [line.split() for line in text_combined.split('\n') if line.strip()]df = pd.DataFrame(lines)if file_ext == '.xlsx':df.to_excel(output_path, index=False, header=False)else:df.to_csv(output_path, index=False, header=False)print(f"OCR 转换完成！结果已保存至: {output_path}")

    except Exception as e:print(f"转换失败: {e}")

if __name__ == "__main__":# 命令行参数解析parser = argparse.ArgumentParser(description="PDF 表格提取工具")parser.add_argument("pdf_path", help="输入的 PDF 文件路径")parser.add_argument("output_path", help="输出的 Excel/CSV 文件路径")parser.add_argument("--ocr", action="store_true", help="强制使用 OCR（针对扫描件）")args = parser.parse_args()# 运行转换pdf_to_excel(args.pdf_path, args.output_path, args.ocr)

命令行运行

# 默认自动检测 PDF 类型
python pdf_to_excel.py input.pdf output.xlsx# 强制使用 OCR（针对扫描件）
python pdf_to_excel.py scanned.pdf output.csv --ocr

直接调用函数

pdf_to_excel("input.pdf", "output.xlsx", use_ocr=False)

重点说明：
文本型 PDF：使用 tabula-py 直接提取表格结构。
扫描件/图片 PDF：
通过 pdf2image 将 PDF 转为图片。
使用 OpenCV 对图像预处理（二值化、去噪）。
调用 pytesseract（Tesseract OCR）识别文字并生成表格。

扫描件质量：OCR 精度受图片清晰度影响，建议高分辨率 PDF。

复杂表格：若表格有合并单元格，可能需要手动调整输出结果。

中文支持：确保 Tesseract 安装了中文语言包（chi_sim）。

如果需要进一步优化（如自定义表格解析逻辑），可以在此基础上扩展！

查看全文

http://www.dtcms.com/wzjs/192.html

wordpress固定衔接出错百度seo推广方案

怎么做监测网站的浏览量网络整合营销理论案例

网站展现形式网络营销企业案例分析

货源网站程序深圳市seo上词贵不贵

企业网站开发文献综述专业搜索引擎seo公司

wordpress添加访问人数优化是什么意思

蒙狼科技建设网站好不好seo技术培训岳阳

成都网站开发等项目外包公司合肥网络推广公司

网站怎么增加页面收录seo网络优化日常工作内容

重庆做网站公司哪家好推动防控措施持续优化

郑州专业建站报价上海外贸seo

购物网站策划建设方案seo推广视频隐迅推专业

做网站开发面临的困难看seo

网站添加漂浮二维码怎么做seo网上培训多少钱

网站建设如何制作教程如何做google推广

做俄语网站建设新的数据新闻

做网站时候那个页面都是单独的吗windows7优化大师下载

定制型网站制作明细报价表今日军事新闻

网站建设应该应聘什么岗位北京网站建设制作开发

网站手机css模板下载营销网站建设规划

商城开发网站建设公司seo是什么级别

太原网站建设哪家好发外链平台

江西建设厅培训网站霸屏seo服务

广东网页设计网站首页关键词怎么排名靠前

怎样成立一个网站秦皇岛seo排名

谁做违法网站宁波网站建设

推进政务服务网站一体化建设whois查询

做网站公司郑州郑州的网站建设公司百度地图推广

北京高端网站建设公司哪家好软文内容

营销型网站是啥想学手艺在哪里可以培训

1. 安装依赖库

2. 完整代码

相关文章：