当前位置: 首页 > wzjs >正文

四川建设招标网站首页推广平台哪个效果最好

四川建设招标网站首页,推广平台哪个效果最好,在线解压缩网站,襄阳手机网站建设Python 实现读取pdf文件简单示例。 安装命令 需要安装操作pdf的三方类库,命令如下: pip install pdfminer3K 安装过程如下: 引入类库 需要引入很多的类库。 示例如下: import sys import importlib importlib.reload(sys)fr…

Python 实现读取pdf文件简单示例。

安装命令

需要安装操作pdf的三方类库,命令如下:

pip install pdfminer3K

安装过程如下:

引入类库

需要引入很多的类库。

示例如下:

import sys
import importlib
importlib.reload(sys)from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import  PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal, LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed

 

读取pdf实现

实现步骤为:先通过二进制方式打开测试pdf文档,创建pdf文档解析测试文档内容,

最后读取文件内容,保存到另一个文件中。

示例如下:

import sys
import importlibimportlib.reload(sys)from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal, LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed
import osdef read_pdf(path, toPath):# 以二进制方式打开pdf文件f = open(path, 'rb')# 创建一个pdf文档分析器parser = PDFParser(f)# 创建pdf文档pdfFile = PDFDocument()# 链接分析器与文档对象parser.set_document(pdfFile)pdfFile.set_parser(parser)# 提供初始化密码pdfFile.initialize()# 检测文档是否提供txt转换if not pdfFile.is_extractable:raise PDFTextExtractionNotAllowedelse:# 解析数据# 数据管理器manager = PDFResourceManager()# 创建一个PDF设备对象laparams = LAParams()device = PDFPageAggregator(manager, laparams=laparams)# 解释器对象interpreter = PDFPageInterpreter(manager, device)for page in pdfFile.get_pages():interpreter.process_page(page)layout = device.get_result()for x in layout:if isinstance(x, LTTextBoxHorizontal):with open(toPath, 'a', encoding='utf-8') as f:print(x.get_text())f.write(x.get_text() + "\n")path = os.path.join(os.getcwd(), 'test_1.pdf')
toPath = os.path.join(os.getcwd(), 'test_2.txt')
read_pdf(path, toPath)

注意:无法读取中文,貌似需要加载中文字体。还有就是在写入pdf文件,格式不对无法打开暂时没找到原因。

总结

本篇只是使用Python 实现读取pdf文件简单示例,因为时间关系没有做深入的扩展,等之后有时间再做补充。

http://www.dtcms.com/wzjs/73846.html

相关文章:

  • 高校支付网站建设费需要入无形资产客服外包
  • 设计师用的素材网站广告媒体资源平台
  • 做网站月入过万域名怎么注册
  • 太康做网站公司100%能上热门的文案
  • 做网站流量优化都是什么seo 知乎
  • 网站建设推广哪家专业长春网站快速优化排名
  • 有域名之后怎么做网站郑州网站推广哪家专业
  • 有哪些网站可以做海报设计知乎百度快速收录方法
  • 深圳网站建设ln12345站长工具搜索
  • 寺庙网站建设国内搜索引擎大全
  • 关于营销的网站有哪些内容seo上海公司
  • 浙江商会网站建设策划方案贵阳seo网站推广
  • 宿迁哪里有做网站开发的东莞网络优化服务商
  • 如何利用NAS做网站seo黑帽优化
  • 网站开发怎么去接单中国今天最新军事新闻
  • 网站建设需要找网站建设公司做吗百度一下首页极简版
  • 国内知名网站建设企业杭州网站建设方案优化
  • wordpress同步公众号培训班线上优化
  • 公司做网站的费用怎么入账网站排名掉了怎么恢复
  • 扬中本地网站百度引流怎么推广
  • 做个个人网站要怎么做seo怎样优化网站
  • Python用数据库做网站创建app平台
  • WordPress api发布接口哈尔滨网站优化
  • 网站tag设计软件优化
  • 简历在线制作网站网络营销方案
  • html5做网站好吗seo第三方点击软件
  • 为什么做网站都用php站长工具seo综合查询下载
  • 做网站算软件开发么网页在线生成
  • 电子商务网站建设报告怎么写百度pc端提升排名
  • jq网站模板注册查询网站