当前位置: 首页 > wzjs >正文

邢台哪个公司做网站好网站优化技巧

邢台哪个公司做网站好,网站优化技巧,网站推广报告,青州建设局网站*用Python将 PDF 中的表格提取为 Excel/CSV,*支持文本型 PDF 和 扫描件/图片型 PDF(需 OCR 识别)。程序包含以下功能: 1.自动检测 PDF 类型(文本 or 扫描件) 2.提取表格数据并保存为 Excel/CSV 3.处理多页…

*用Python将 PDF 中的表格提取为 Excel/CSV,*支持文本型 PDF 和 扫描件/图片型 PDF(需 OCR 识别)。程序包含以下功能:

1.自动检测 PDF 类型(文本 or 扫描件)
2.提取表格数据并保存为 Excel/CSV
3.处理多页 PDF
4.命令行交互 & 图形界面(可选)

1. 安装依赖库

运行前,先安装所需库:

pip install tabula-py pandas pytesseract pdf2image opencv-python pillow

2. 完整代码

导入相关模块

import os
import pandas as pd
import tabula
from pdf2image import convert_from_path
import pytesseract
import cv2
import tempfile
import argparse

定义函数

def pdf_to_excel(pdf_path, output_path, use_ocr=False):
    """将 PDF 中的表格转换为 Excel 文件:param pdf_path: PDF 文件路径:param output_path: 输出 Excel/CSV 路径:param use_ocr: 是否强制使用 OCR(针对扫描件)"""try:# 检查输出格式file_ext = os.path.splitext(output_path)[1].lower()if file_ext not in ['.xlsx', '.csv']:raise ValueError("输出文件格式必须是 .xlsx 或 .csv")
        # 尝试直接提取文本表格(非扫描件)if not use_ocr:try:print("尝试提取文本表格...")dfs = tabula.read_pdf(pdf_path, pages='all', multiple_tables=True)if not dfs:raise RuntimeError("未检测到表格,可能为扫描件图片。")# 合并所有表格页combined_df = pd.concat(dfs, ignore_index=True)if file_ext == '.xlsx':combined_df.to_excel(output_path, index=False)else:combined_df.to_csv(output_path, index=False)print(f"转换成功!结果已保存至: {output_path}")returnexcept Exception as e:print(f"文本提取失败(可能为扫描件),尝试 OCR: {e}")use_ocr = True
        # OCR 处理扫描件/图片if use_ocr:print("正在使用 OCR 识别扫描件...")with tempfile.TemporaryDirectory() as temp_dir:# 将 PDF 转换为图片images = convert_from_path(pdf_path, output_folder=temp_dir)all_text = []for i, img in enumerate(images):img_path = os.path.join(temp_dir, f"page_{i+1}.jpg")img.save(img_path, 'JPEG')# 使用 OpenCV 增强图像(可选)img_cv = cv2.imread(img_path)gray = cv2.cvtColor(img_cv, cv2.COLOR_BGR2GRAY)thresh = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)[1]# OCR 识别text = pytesseract.image_to_string(thresh, config='--psm 6')all_text.append(text)
                # 将识别结果保存为表格text_combined = "\n".join(all_text)lines = [line.split() for line in text_combined.split('\n') if line.strip()]df = pd.DataFrame(lines)if file_ext == '.xlsx':df.to_excel(output_path, index=False, header=False)else:df.to_csv(output_path, index=False, header=False)print(f"OCR 转换完成!结果已保存至: {output_path}")
    except Exception as e:print(f"转换失败: {e}")
if __name__ == "__main__":# 命令行参数解析parser = argparse.ArgumentParser(description="PDF 表格提取工具")parser.add_argument("pdf_path", help="输入的 PDF 文件路径")parser.add_argument("output_path", help="输出的 Excel/CSV 文件路径")parser.add_argument("--ocr", action="store_true", help="强制使用 OCR(针对扫描件)")args = parser.parse_args()# 运行转换pdf_to_excel(args.pdf_path, args.output_path, args.ocr)

命令行运行

# 默认自动检测 PDF 类型
python pdf_to_excel.py input.pdf output.xlsx# 强制使用 OCR(针对扫描件)
python pdf_to_excel.py scanned.pdf output.csv --ocr

直接调用函数

pdf_to_excel("input.pdf", "output.xlsx", use_ocr=False)

重点说明:
文本型 PDF:使用 tabula-py 直接提取表格结构。
扫描件/图片 PDF:
通过 pdf2image 将 PDF 转为图片。
使用 OpenCV 对图像预处理(二值化、去噪)。
调用 pytesseract(Tesseract OCR)识别文字并生成表格。

扫描件质量:OCR 精度受图片清晰度影响,建议高分辨率 PDF。

复杂表格:若表格有合并单元格,可能需要手动调整输出结果。

中文支持:确保 Tesseract 安装了中文语言包(chi_sim)。

如果需要进一步优化(如自定义表格解析逻辑),可以在此基础上扩展!

http://www.dtcms.com/wzjs/130909.html

相关文章:

  • 网站首页被降权怎么做seo全网优化推广
  • 网站域名做哪个会计科目软文广告素材
  • 管理型网站建设费用明细如何建立一个自己的网站?
  • 做好政府网站建设友情链接交换软件
  • 网站建设如何做报价重庆seo技术教程
  • 计算机课程网站建设实训报告总结河北seo网络优化师
  • 衡水哪儿做网站便宜南宁seo网络推广
  • 白山住房与城乡建设局网站做好网络推广
  • 上海网站制作公司有哪些世界搜索引擎公司排名
  • 重庆开县网站建设报价网站推广和优化的原因网络营销
  • 乌克兰网站建设温州企业网站排名优化
  • 渭南网站建设风尚网络seo自然优化排名技巧
  • 服装公司网站建设规划方案十大seo公司
  • 产品vi设计哪家好seo教学网seo
  • 昌黎网站建设国内真正的永久免费建站
  • 舟山网站制作网络营销价格策略有哪些
  • 山西企业模板建站理发美发培训学校
  • 网页设计图片自适应seo查询工具
  • 建设银行网站信任关键词排名批量查询软件
  • 台州网站制作系统分析怎么写宁波厂家关键词优化
  • 专业网站建设制作公司网站怎么做
  • 做网站建设网站制作市场营销网站
  • 县级门户网站建设运营成本西安网站seo优化公司
  • 在猪八戒网站如何做兼职营销型网站建设服务
  • 灰色项目网站代做网络营销心得体会1000字
  • 设计海报网站西安网站seo排名优化
  • 用qq空间做网站中文域名注册管理中心
  • 网站设计专业公司价格seo搜索引擎优化工资多少钱
  • 网站技术支持是什么淄博信息港聊天室网址
  • 门户网站制作全包百度竞价排名背后的伦理问题