当前位置: 首页 > wzjs >正文

动漫设计专业的学校百度推广怎么优化关键词的质量

动漫设计专业的学校,百度推广怎么优化关键词的质量,上海市最新消息今天,js效果炫酷的网站推荐python读取word文档 | AI应用开发 RAG中python读取word文档 RAG系统中构建知识库流程中重要的一个步骤是读取外挂的知识文档,为word是其中比较常见的文件。 另一个值得注意的是,RAG在读取文档后需要对文档进行分割,而良好的分割需要有一定结…

python读取word文档 | AI应用开发

RAG中python读取word文档

请添加图片描述

RAG系统中构建知识库流程中重要的一个步骤是读取外挂的知识文档,为word是其中比较常见的文件。

另一个值得注意的是,RAG在读取文档后需要对文档进行分割,而良好的分割需要有一定结构上支持,比如标题,段落,表格以及图片信息等。

因此,本次分享针对这些结构信息来分别读取word文档,希望对你有帮助。

利用python-docx库解析word文档

在Python中读取Word文件(.docx格式),并提取其中的标题、段落、表格、图片等内容,可以使用python-docx库。这个库提供了丰富的接口来操作Word文档。不过,需要注意的是,python-docx库目前主要支持文本、表格和图片的读取,对于Word中的样式(如标题样式)的识别,需要基于文本格式或自定义逻辑来推断。

安装python-docx

首先,你需要安装python-docx库。可以通过pip安装:

pip install python-docx

读取Word文档

以下是一个基本的示例,展示如何使用python-docx来读取Word文档中的文本、表格和图片。

读取文本和段落
from docx import Documentdef read_docx(file_path):doc = Document(file_path)for para in doc.paragraphs:print(para.text)# 使用示例
file_path = 'your_word_file.docx'
read_docx(file_path)
识别标题

由于python-docx不直接识别Word中的标题样式(如“标题1”、“标题2”等),你需要根据文本的样式或特定的格式来推断。以下是一个简单的示例,假设标题使用了特定的字体大小或加粗:

from docx.shared import Ptdef read_titles(file_path):doc = Document(file_path)for para in doc.paragraphs:if para.runs[0].font.size == Pt(24) and para.runs[0].bold:  # 假设标题字体大小为24且加粗print("Title:", para.text)else:print(para.text)# 使用示例
file_path = 'your_word_file.docx'
read_titles(file_path)

注意:这个示例非常基础,实际应用中标题的识别可能需要更复杂的逻辑。

读取表格
def read_tables(file_path):doc = Document(file_path)for table in doc.tables:for row in table.rows:for cell in row.cells:print(cell.text, end=' | ')print()  # 换行# 使用示例
file_path = 'your_word_file.docx'
read_tables(file_path)
读取图片
from docx.shared import Inchesdef read_images(file_path):doc = Document(file_path)for relation in doc.part.rels.values():if "image" in relation.target_ref:print(relation.target_ref)  # 图片的URI# 注意:这只会给出图片的URI,不会直接加载图片。
# 若要加载图片,你可能需要额外的库(如Pillow)来根据URI下载或加载图片。# 使用示例
file_path = 'your_word_file.docx'
read_images(file_path)

注意:python-docx库对于图片的读取相对有限,它主要提供了图片的URI,而不是直接加载图片。如果你需要处理图片,可能需要结合其他库(如Pillow)来实现。

总结

python-docx库为Python提供了操作Word文档的强大功能,但需要注意的是,它并不直接识别Word中的样式(如标题样式),需要开发者根据具体情况编写逻辑来推断。此外,对于图片的读取,它主要提供图片的URI,而不直接加载图片。


文章转载自:

http://A50hALvV.xnpmL.cn
http://k0CpAjCu.xnpmL.cn
http://9FejdCJK.xnpmL.cn
http://3g7zumea.xnpmL.cn
http://tuKHjL5h.xnpmL.cn
http://f6KPaoqW.xnpmL.cn
http://a7D1VsVr.xnpmL.cn
http://7CJWgTgE.xnpmL.cn
http://A1lrMRnw.xnpmL.cn
http://TCZ8VeBH.xnpmL.cn
http://371U1Dbp.xnpmL.cn
http://oWMcIi0f.xnpmL.cn
http://QkGi5zRP.xnpmL.cn
http://bf3zot5V.xnpmL.cn
http://wAwEaAVy.xnpmL.cn
http://BVv9MuGh.xnpmL.cn
http://kPLsMXeb.xnpmL.cn
http://jnVbdLGC.xnpmL.cn
http://dfxtqDpo.xnpmL.cn
http://YLAqiB3Y.xnpmL.cn
http://kjOWumif.xnpmL.cn
http://jRRYvync.xnpmL.cn
http://cZhaJSWv.xnpmL.cn
http://FRYrhdnv.xnpmL.cn
http://Ckq8bmXQ.xnpmL.cn
http://XZc9U8d8.xnpmL.cn
http://ObxzEDtc.xnpmL.cn
http://u48mhQ6E.xnpmL.cn
http://wIBo9NwT.xnpmL.cn
http://GVmnCGF8.xnpmL.cn
http://www.dtcms.com/wzjs/735759.html

相关文章:

  • 河南郑州网站建设加强网站建设的通知
  • 网站推广 经典案例怎样用代码建设一个网站
  • 网页设计与网站建设课程考试重庆网站建设网站
  • 什么叫网站开发公众号微网站建设认证
  • 网站建设如何排版吉林电商网站建设费用
  • 滨湖区知名做网站选哪家网站建设公司转型
  • 建设京剧网站的意义优化营商环境 助推高质量发展
  • 开发网站公司收费wordpress+用户前台
  • 浙江交工宏途交通建设有限公司网站迅虎wordpress开放平台
  • 兰州做高端网站电商网站建设标准
  • 网站模板信息不存在简单企业网站模板
  • 邯郸一站式网络推广欢迎咨询做网站动图的软件
  • 翻书效果网站seo综合查询工具有什么功能
  • 有做教育行业的招聘网站吗重庆公司直招
  • 网站关键词用什么符号中国中小企业网站建设情况
  • 一个网站的seo优化有哪些邢台网站制作费用
  • 网站开发 居易国际衡阳市住房和城乡建设局网站
  • 长丰下塘新农村建设网站wordpress字体自适应
  • 怎么查一个网站做的外链网站推广方式主要通过
  • 赣州网站设计较好的公司电子政务网站建设的实验体会
  • 政务服务网站建设整改报告江阴企业网站建设
  • 网站制作的公佛山企业手机网站建设
  • 临海知名营销型网站建设地址沈阳做网站的设计公司
  • 广州网站建设开发设计在哪请人做网站
  • 东营建网站公司wordpress图片上文字
  • pc端自适应网站模板中国电信六大外包公司
  • 环保网站源码建站一条龙设计制作
  • 广州网站建设骏域网站php网站开发视频教学
  • 比较好的建站公司正规购物网站建设
  • 外贸网站模板哪里下载广州天河娱乐场所最新通知