当前位置: 首页 > news >正文

文件解析:doc、docx、pdf

1.doc解析

ubuntu/debian系统应先安装工具

apt-get install python-dev libxml2-dev libxslt1-dev antiword unrtf poppler-utils pstotext tesseract-ocr \
flac ffmpeg lame libmad0 libsox-fmt-mp3 sox libjpeg-dev swig
pip install textract

解析:

import textract
text = textract.process(doc_file, input_encoding='utf-8')
text_str = str(text, 'utf-8')
print(text_str)

2.docx解析

pip install python-docx

from docx import Document
import docx2txt

def read_docx(docx_file):
    doc = Document(docx_file)
    text = []
    for paragraph in doc.paragraphs:
        text.append(paragraph.text)
    return '\n'.join(text)
read_docx('path.docx')

相关文章:

  • 开发环境搭建-06.后端环境搭建-前后端联调-Nginx反向代理和负载均衡概念
  • RAG了解与实践
  • QEMU源码全解析 —— 块设备虚拟化(1)
  • MySQL root用户密码忘记怎么办(Reset root account password)
  • Java面经
  • 字节跳动AI原生编程工具Trae和百度“三大开发神器”AgentBuilder、AppBuilder、ModelBuilder的区别是?
  • 蓝桥试题:传球游戏(二维dp)
  • 基于海思soc的智能产品开发(芯片sdk和linux开发关系)
  • unity console日志双击响应事件扩展
  • C#核心(21)万物之父Object中的方法
  • Lambda表达式使用介绍
  • 【Bootstrap5】Bootstrap5学习笔记
  • 数据库复习(第五版)- 第七章 数据库设计
  • 3.6c语言
  • 【算法系列】基数排序
  • 维度建模事实表技术基础解析(以电商场景为例)
  • 洛谷 P1480 A/B Problem(高精度详解)c++
  • 相机几何与标定:从三维世界到二维图像的映射
  • 【LeetCode101】对称二叉树
  • 逐梦DBA:MySQL的编码设置
  • 中国戏剧梅花奖终评结果公示,蓝天和朱洁静等15名演员入选
  • 国家统计局:消费对我国经济增长的拉动有望持续增长
  • “大国重器”、新型反隐身雷达……世界雷达展全面展示尖端装备
  • 国际博物馆日|航海博物馆:穿梭于海洋神话与明代造船工艺间
  • 没有握手,采用翻译:俄乌三年来首次直接会谈成效如何?
  • 朝鲜称将在各领域采取反制措施,应对美国敌对挑衅