当前位置: 首页 > news >正文

LibreOffice转换word文档

目录

  • 一、前言
  • 二、LibreOffice转换的核心代码
  • 三、转换后的Pdf提取解析情况

一、前言

     对于word文档,这里介绍一种解析文本、提取图片的方式。具体技术方案:LibreOffice将docx转换为pdf + 再pdfplumber按页提取文本。
该方案说明
     LibreOffice 是一个跨平台的开源办公套件,支持 Linux、Windows 和 macOS 操作系统。目前为止,LibreOffice 是最佳的把docx转换为pdf的方式!
但是一个严重的缺点:按照默认参数去生成pdf,会有一些属性会丢失【比如pdf中的图片被设置为共享形式,导致解析pdf图片时不能判断出图片来自哪个页!】。

二、LibreOffice转换的核心代码

def convert_word_to_pdf(input_path, output_dir)

相关文章:

  • GC 基础入门
  • 简述 tsconfig.json 中 rootDir 和 include 之间的关系
  • 沃德校园助手系统php+uniapp
  • Windows逆向工程入门之汇编位运算
  • DeepSeek R1本地化部署:从零搭建智能对话系统
  • Vue的简单入门 一
  • MySQL数据库(八)☞ 我是不是锁神
  • 草图绘制技巧
  • 学习web数据埋点
  • 滑动窗口算法篇:连续子区间与子串问题
  • docker 基础命令使用(ubuntu)
  • 「软件设计模式」桥接模式(Bridge Pattern)
  • Vue:h渲染函数性能警告[Non-function value encountered for default slot.]
  • 4G模块非必要,不关机!关机建议先进飞行模式
  • 【linux】Socket网络编程
  • 豆瓣电影信息快速获取带api接口
  • React 中的状态和属性有什么区别?
  • springboot自动配置原理
  • LabVIEW 天然气水合物电声联合探测
  • Spring系列一:spring的安装与使用
  • 马上评|让查重回归促进学术规范的本意
  • “异常”只停留在医院里,用艺术为“泡泡宝贝”加油
  • 甘肃发布外卖食品安全违法行为典型案例:一商家用鸭肉冒充牛肉被罚
  • 美国和沙特签署上千亿美元军售协议
  • 这个“超强致癌细菌”,宝宝感染率高达40%,预防却很简单
  • 迪奥部分客户数据遭泄露,公司称正持续展开调查