LibreOffice转换word文档
目录
- 一、前言
- 二、LibreOffice转换的核心代码
- 三、转换后的Pdf提取解析情况
一、前言
对于word文档,这里介绍一种解析文本、提取图片的方式。具体技术方案:LibreOffice将docx转换为pdf + 再pdfplumber按页提取文本。
该方案说明:
LibreOffice 是一个跨平台的开源办公套件,支持 Linux、Windows 和 macOS 操作系统。目前为止,LibreOffice 是最佳的把docx转换为pdf的方式!
但是一个严重的缺点:按照默认参数去生成pdf,会有一些属性会丢失【比如pdf中的图片被设置为共享形式,导致解析pdf图片时不能判断出图片来自哪个页!】。
二、LibreOffice转换的核心代码
def convert_word_to_pdf(input_path, output_dir)