当前位置: 首页 > wzjs >正文

外贸网站建设应该怎样选择语言外贸企业网站设计公司

外贸网站建设应该怎样选择语言,外贸企业网站设计公司,网站开发用什么语言最好,中国网站建设公司排行Python 实现读取pdf文件简单示例。 安装命令 需要安装操作pdf的三方类库,命令如下: pip install pdfminer3K 安装过程如下: 引入类库 需要引入很多的类库。 示例如下: import sys import importlib importlib.reload(sys)fr…

Python 实现读取pdf文件简单示例。

安装命令

需要安装操作pdf的三方类库,命令如下:

pip install pdfminer3K

安装过程如下:

引入类库

需要引入很多的类库。

示例如下:

import sys
import importlib
importlib.reload(sys)from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import  PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal, LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed

 

读取pdf实现

实现步骤为:先通过二进制方式打开测试pdf文档,创建pdf文档解析测试文档内容,

最后读取文件内容,保存到另一个文件中。

示例如下:

import sys
import importlibimportlib.reload(sys)from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal, LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed
import osdef read_pdf(path, toPath):# 以二进制方式打开pdf文件f = open(path, 'rb')# 创建一个pdf文档分析器parser = PDFParser(f)# 创建pdf文档pdfFile = PDFDocument()# 链接分析器与文档对象parser.set_document(pdfFile)pdfFile.set_parser(parser)# 提供初始化密码pdfFile.initialize()# 检测文档是否提供txt转换if not pdfFile.is_extractable:raise PDFTextExtractionNotAllowedelse:# 解析数据# 数据管理器manager = PDFResourceManager()# 创建一个PDF设备对象laparams = LAParams()device = PDFPageAggregator(manager, laparams=laparams)# 解释器对象interpreter = PDFPageInterpreter(manager, device)for page in pdfFile.get_pages():interpreter.process_page(page)layout = device.get_result()for x in layout:if isinstance(x, LTTextBoxHorizontal):with open(toPath, 'a', encoding='utf-8') as f:print(x.get_text())f.write(x.get_text() + "\n")path = os.path.join(os.getcwd(), 'test_1.pdf')
toPath = os.path.join(os.getcwd(), 'test_2.txt')
read_pdf(path, toPath)

注意:无法读取中文,貌似需要加载中文字体。还有就是在写入pdf文件,格式不对无法打开暂时没找到原因。

总结

本篇只是使用Python 实现读取pdf文件简单示例,因为时间关系没有做深入的扩展,等之后有时间再做补充。

http://www.dtcms.com/wzjs/433417.html

相关文章:

  • 南宁网站制作建设seo网站推广技术
  • 关于二级网站建设seo招聘要求
  • 做网站好的公司客源引流推广
  • 济南网站建设webwz8百度上看了不健康的内容犯法吗
  • 网站安全管理网络推广网址
  • 企业做网站哪个最好最新长尾关键词挖掘
  • 建设信用卡申请官方网站最新实时大数据
  • 做b2b网站最近的新闻热点时事
  • 免费做h5的网站有哪些网络广告营销策略
  • 网站建设公司如何挖掘客户广东疫情最新消息今天
  • 企业宣传网站建设内容郑州有没有厉害的seo
  • 自助搜优惠券网站怎么做的世界比分榜
  • 成都网站建设推广可以搜索广告是什么意思
  • 香港网站空间推广文案怎么写吸引人
  • 免费seo网站的工具广告投放公司
  • 网站怎么做登录网络营销策划方案ppt模板
  • 哪个公司网站建设好营销方法有哪几种
  • 阿里云服务器win系统建站教程开鲁网站seo
  • 深圳网站建设吗公司网络推广方法
  • 厦门有没有做网站的市场调研报告模板ppt
  • 拟定一个物流网站建设方案久久seo综合查询
  • 做室内设计特别好的网站百度认证证书
  • 相册管理网站模板下载最新国内新闻10条
  • b2c开通手机网站多少钱郑州seo优化公司
  • 黄石本土做网站的公司爱站网seo综合查询工具
  • 做网站使用明星照片可以吗网站注册账号
  • 让医院做网站的策划书最新推广方法
  • 彩视网站建设策划seo网页优化服务
  • 做网站的意义大不大跨境电商平台
  • seo网站诊断方案网站技术外包公司