当前位置: 首页 > news >正文

LibreOffice转换word文档

目录

  • 一、前言
  • 二、LibreOffice转换的核心代码
  • 三、转换后的Pdf提取解析情况

一、前言

     对于word文档,这里介绍一种解析文本、提取图片的方式。具体技术方案:LibreOffice将docx转换为pdf + 再pdfplumber按页提取文本。
该方案说明
     LibreOffice 是一个跨平台的开源办公套件,支持 Linux、Windows 和 macOS 操作系统。目前为止,LibreOffice 是最佳的把docx转换为pdf的方式!
但是一个严重的缺点:按照默认参数去生成pdf,会有一些属性会丢失【比如pdf中的图片被设置为共享形式,导致解析pdf图片时不能判断出图片来自哪个页!】。

二、LibreOffice转换的核心代码

def convert_word_to_pdf(input_path, output_dir)
http://www.dtcms.com/a/19256.html

相关文章:

  • GC 基础入门
  • 简述 tsconfig.json 中 rootDir 和 include 之间的关系
  • 沃德校园助手系统php+uniapp
  • Windows逆向工程入门之汇编位运算
  • DeepSeek R1本地化部署:从零搭建智能对话系统
  • Vue的简单入门 一
  • MySQL数据库(八)☞ 我是不是锁神
  • 草图绘制技巧
  • 学习web数据埋点
  • 滑动窗口算法篇:连续子区间与子串问题
  • docker 基础命令使用(ubuntu)
  • 「软件设计模式」桥接模式(Bridge Pattern)
  • Vue:h渲染函数性能警告[Non-function value encountered for default slot.]
  • 4G模块非必要,不关机!关机建议先进飞行模式
  • 【linux】Socket网络编程
  • 豆瓣电影信息快速获取带api接口
  • React 中的状态和属性有什么区别?
  • springboot自动配置原理
  • LabVIEW 天然气水合物电声联合探测
  • Spring系列一:spring的安装与使用
  • 涵盖了全阶段数学练习题目的数学练习软件!
  • 蓝桥杯---排序数组(leetcode第912题)
  • 算法刷题-链表系列-两两交换链表结点
  • SwiftUI 5.0 中宝藏视图修改器 containerRelativeFrame 趣谈(下)
  • 架构设计系列(三):架构模式
  • Windchill-PDM-设置环境
  • 宝塔和docker的区别
  • 无人机航迹规划:孟加拉虎优化( Savannah Bengal Tiger Optimization ,SBTO)算法求解无人机路径规划MATLAB
  • P6792 [SNOI2020] 区间和 Solution
  • 闲鱼IP属地是通过电话号码吗?