当前位置: 首页 > wzjs >正文

网站黄页推广软件如何自己建设网站

网站黄页推广软件,如何自己建设网站,专门找图片的网站,网站建设首选玖艺建站信得过批量文件分析器:从PPT和PDF中提取文本 📰🔍 你好,小伙伴们!今天我们来聊聊如何批量处理和分析PDF与PPT文件内容。我们会使用一个Python脚本,帮你提取文件的文本内容。此工具特别适合需要处理大量文档的朋友…

批量文件分析器:从PPT和PDF中提取文本 📰🔍

你好,小伙伴们!今天我们来聊聊如何批量处理和分析PDF与PPT文件内容。我们会使用一个Python脚本,帮你提取文件的文本内容。此工具特别适合需要处理大量文档的朋友,例如学生、研究人员,甚至是职场达人。让我们开始吧!💡

依赖工具

在这个项目中,我们使用了几个重要的Python库:

  • requests: 用于下载在线文件。
  • Pathlib: 简单优雅地处理路径。
  • python-pptx: 从PPT文件中提取文本。
  • PyPDFLoader: 用于解析PDF文件内容。

先确保在你的环境中安装了这些库:

pip install requests python-pptx langchain_community

代码分解

以下是我们的核心代码:

import requests
from pathlib import Path
from typing import List, Tuple
from urllib.parse import urlparse
from pptx import Presentation
from langchain_community.document_loaders import PyPDFLoader
import osclass BatchAnalyzer:def _extract_content(self, file_path: str) -> Tuple[str, List[str]]:"""统一内容提取方法"""ext = Path(file_path).suffix.lower()text = ""images = []try:# 处理PPT文件if ext == '.pptx':prs = Presentation(file_path)text_contents = []for slide in prs.slides:for shape in slide.shapes:if hasattr(shape, "text"):text_contents.append(shape.text)text = "\n".join(text_contents)# 处理PDF文件elif ext == '.pdf':text = "\n".join([p.page_content for p in PyPDFLoader(file_path).load()])return text, imagesexcept Exception as e:print(f"❌ 内容提取失败 {file_path}: {str(e)}")return "", []def analyze(self, sources: List[str], prompt: str) -> dict:"""批量分析入口"""combined_text = []all_images = []for source in sources:print(f"🔍 处理输入源: {source}")if urlparse(source).scheme in ('http', 'https'):file_path = self._download_file(source)else:file_path = source if os.path.exists(source) else Noneif not file_path:print(f"⏭️ 跳过无效源: {source}")continuetext, images = self._extract_content(file_path)if text:combined_text.append(text)all_images.extend(images)content = [{"type": "text", "text": f"{prompt}\n\n{' '.join(combined_text)}"}]return content

核心组件

  1. 内容提取:

    • PDFPPTX文件的文本内容提取分别由 PyPDFLoaderpython-pptx处理。我们在_extract_content方法中对文件类型进行判断,并调用相应函数。
  2. 处理输入源:

    • 支持本地文件和在线资源的处理。对于在线文件,我们下载文件后再进行解析。
  3. 分析方法:

    • analyze方法接收文件路径列表和提示词并返回提取的文本信息。最终的输出格式是字典形式。

使用说明

将代码复制到一个Python文件中,可以自己进一步扩展函数功能。然后在文件末尾通过一个简单的示例进行测试:

if __name__ == "__main__":analyzer = BatchAnalyzer()# 输入源配置(支持混合来源)input_sources = ["te_page_001.pdf",]# 执行分析result = analyzer.analyze(sources=input_sources,prompt="内容如下:")print("\n✅ 分析结果:")print(result)

确保你的工作目录中有正确的文件路径,然后运行脚本,即可获得分析结果。是不是很简单方便?😊

总结

这个批量分析器为需要快速批量提取文档内容的用户提供了极大的便利。无论是项目材料,还是分析报告,这个工具都能派上用场。如果你对此有任何想法或问题,欢迎在评论区留言讨论!欢迎尝试并与我们分享你的经验与成果!🚀

http://www.dtcms.com/wzjs/553309.html

相关文章:

  • 电商网站设计岗位主要是营销型网站建设的五力原则包括
  • 云浮哪有做网站公司装修无忧网
  • 如何维护自己公司网站品牌建设网
  • 济南能源建设网站wordpress 发布函数
  • 广州网站设计成功柚米科技软文广告有哪些
  • 上海网站制作公司多少钱建设银行宁波分行招聘网站
  • 全国建设建管中心网站国外的智慧城市建设网站
  • 医院网站建设情况说明wordpress 影楼
  • 怎样做一个网站赚钱吗WordPress搭建连不上数据库
  • 选择赣州网站建设苏州手机网站搭建
  • 常州网站制作报价静态动漫网站模板
  • 自己做企业网站用哪个软件微网站开发第三方平台
  • 下单网站搭建wordpress搬家502
  • 番禺网站开发哪家好石家庄建设网站公司哪家好
  • 网页设计模板网站推荐济南网站推广徽hyhyk1
  • 做封面的网站在哪里注册公司流程和费用需要哪些条件
  • 20个优秀的响应式设计html5网站模板软文广告属于什么营销
  • 江门城乡建设局官方网站站群系统软件
  • 采集微信公众号 做网站重庆潼南网站建设价格
  • 全国最新网站备案查询北京搜索引擎推广服务
  • 凡客建站快车做造价在那个网站比较好
  • 靖江做网站哪家好四川广汉市规划和建设局网站
  • dw做网站有哪些用处传统营销渠道有哪些
  • 北京网站排名方案企业网站 php
  • 东莞网站推广定制公司东莞网站建设17
  • 江西网站建设企业邮箱号怎么注册
  • 旅游网站建设经费预算做策划 都上什么网站
  • 网站jquery在线优化p2p万能搜索种子
  • 太原关键词排名优化深圳免费网站排名优化
  • 房地产电子商务的网站建设宾馆网站制作