当前位置: 首页 > wzjs >正文

常德外贸网站优化推广网站模板是怎么制作

常德外贸网站优化推广,网站模板是怎么制作,网站风格介绍,wordpress主题导入Demopython读取word文档 | AI应用开发 RAG中python读取word文档 RAG系统中构建知识库流程中重要的一个步骤是读取外挂的知识文档,为word是其中比较常见的文件。 另一个值得注意的是,RAG在读取文档后需要对文档进行分割,而良好的分割需要有一定结…

python读取word文档 | AI应用开发

RAG中python读取word文档

请添加图片描述

RAG系统中构建知识库流程中重要的一个步骤是读取外挂的知识文档,为word是其中比较常见的文件。

另一个值得注意的是,RAG在读取文档后需要对文档进行分割,而良好的分割需要有一定结构上支持,比如标题,段落,表格以及图片信息等。

因此,本次分享针对这些结构信息来分别读取word文档,希望对你有帮助。

利用python-docx库解析word文档

在Python中读取Word文件(.docx格式),并提取其中的标题、段落、表格、图片等内容,可以使用python-docx库。这个库提供了丰富的接口来操作Word文档。不过,需要注意的是,python-docx库目前主要支持文本、表格和图片的读取,对于Word中的样式(如标题样式)的识别,需要基于文本格式或自定义逻辑来推断。

安装python-docx

首先,你需要安装python-docx库。可以通过pip安装:

pip install python-docx

读取Word文档

以下是一个基本的示例,展示如何使用python-docx来读取Word文档中的文本、表格和图片。

读取文本和段落
from docx import Documentdef read_docx(file_path):doc = Document(file_path)for para in doc.paragraphs:print(para.text)# 使用示例
file_path = 'your_word_file.docx'
read_docx(file_path)
识别标题

由于python-docx不直接识别Word中的标题样式(如“标题1”、“标题2”等),你需要根据文本的样式或特定的格式来推断。以下是一个简单的示例,假设标题使用了特定的字体大小或加粗:

from docx.shared import Ptdef read_titles(file_path):doc = Document(file_path)for para in doc.paragraphs:if para.runs[0].font.size == Pt(24) and para.runs[0].bold:  # 假设标题字体大小为24且加粗print("Title:", para.text)else:print(para.text)# 使用示例
file_path = 'your_word_file.docx'
read_titles(file_path)

注意:这个示例非常基础,实际应用中标题的识别可能需要更复杂的逻辑。

读取表格
def read_tables(file_path):doc = Document(file_path)for table in doc.tables:for row in table.rows:for cell in row.cells:print(cell.text, end=' | ')print()  # 换行# 使用示例
file_path = 'your_word_file.docx'
read_tables(file_path)
读取图片
from docx.shared import Inchesdef read_images(file_path):doc = Document(file_path)for relation in doc.part.rels.values():if "image" in relation.target_ref:print(relation.target_ref)  # 图片的URI# 注意:这只会给出图片的URI,不会直接加载图片。
# 若要加载图片,你可能需要额外的库(如Pillow)来根据URI下载或加载图片。# 使用示例
file_path = 'your_word_file.docx'
read_images(file_path)

注意:python-docx库对于图片的读取相对有限,它主要提供了图片的URI,而不是直接加载图片。如果你需要处理图片,可能需要结合其他库(如Pillow)来实现。

总结

python-docx库为Python提供了操作Word文档的强大功能,但需要注意的是,它并不直接识别Word中的样式(如标题样式),需要开发者根据具体情况编写逻辑来推断。此外,对于图片的读取,它主要提供图片的URI,而不直接加载图片。


文章转载自:

http://qJ3aHYHs.wkmpx.cn
http://hZ6Co3IB.wkmpx.cn
http://v4YZ320i.wkmpx.cn
http://aYhR4AFx.wkmpx.cn
http://315YB3mp.wkmpx.cn
http://Bt24inOu.wkmpx.cn
http://bmzKebpg.wkmpx.cn
http://1WOO7ebQ.wkmpx.cn
http://wWVnjzyj.wkmpx.cn
http://EwLzVWc6.wkmpx.cn
http://Ztv162BB.wkmpx.cn
http://oBWsZmmZ.wkmpx.cn
http://U7QL5okL.wkmpx.cn
http://Olp02Svx.wkmpx.cn
http://8VRYeIAA.wkmpx.cn
http://yDvqzz6B.wkmpx.cn
http://ZOs0iM4F.wkmpx.cn
http://H4tWPCNI.wkmpx.cn
http://YOzGNXem.wkmpx.cn
http://B3dvSZeX.wkmpx.cn
http://UATGqU7t.wkmpx.cn
http://jgAL7iG8.wkmpx.cn
http://o6za4k9q.wkmpx.cn
http://1Ptc2zMw.wkmpx.cn
http://e659NRQ8.wkmpx.cn
http://BIwqcKXz.wkmpx.cn
http://6GqQ9buk.wkmpx.cn
http://jgLGhFwU.wkmpx.cn
http://2nQGOf0k.wkmpx.cn
http://dg9skVE1.wkmpx.cn
http://www.dtcms.com/wzjs/761467.html

相关文章:

  • 扁平式的网站阳江建设网站
  • 建设部资质查询网站服装定制官网
  • .电子商务网站的开发原则包括公司网站建设汇报
  • 做网站主要栏目内潍坊专业联轴器收购价格
  • 开一个二手车销售网站怎么做跨境电商网站建设方案书
  • .net如何兼容手机网站农行网站不出动画怎么做
  • 律师事务所网站设计做动态二维码的网站
  • 宜昌公司做网站海南第四建设工程有限公司网站
  • 网站301重定向的意义免费装饰公司网站模板
  • 微信旅游网站建设深圳网站搭建找哪里
  • 发现了一个做字素的网站wordpress基本插件
  • 自己电脑做网站主机延安网站建设网络公司
  • 网站建设项目评审意见公司网站制作的教程
  • 网页的视频怎么下载到本地优化网站推广排名
  • 邢台做网站推广的公司是哪家?什么样的网站需要认证
  • wordpress仿站js如何导入链家网站开发
  • 欧洲购物网站排名文创做的好的网站推荐
  • 深圳龙华新区住房和建设局网站神农架网站建设公司
  • 可以直接进入的舆情网站公司做的网站搜索不到
  • 为网站开发android客户端做网站改变图片位置
  • 万网如何做网站中国纪检监察报评论员文章
  • 太原建网站的公司百度我的订单
  • 上海网站建设模板最专业的企业营销型网站建设公司
  • 做网站时图片要切片有什么作用噼里啪啦免费观看高清动漫
  • 官方网站免费建设购物类网站
  • delphi xe10网站开发国内重大新闻2022
  • 崆峒区城乡建设局网站企业网站制作教程
  • 创业做旅游网站开发网页游戏平台
  • 网站管理是什么工作wordpress新建文章随机一个阅读量
  • 网站建设需要什么技术网站里会自动换图怎么做