当前位置: 首页 > wzjs >正文

做网站时 404网页如何指向关键词seo深圳

做网站时 404网页如何指向,关键词seo深圳,太仓做企业网站,动态网页设计新建网站SimpleDirectoryReader 是将本地文件数据加载到 LlamaIndex 的最简单方式。虽然在实际生产场景中,您更可能需要使用 LlamaHub 提供的多种数据读取器(Reader),但 SimpleDirectoryReader 无疑是快速入门的理想选择。 支持的文件类型…

SimpleDirectoryReader 是将本地文件数据加载到 LlamaIndex 的最简单方式。虽然在实际生产场景中,您更可能需要使用 LlamaHub 提供的多种数据读取器(Reader),但 SimpleDirectoryReader 无疑是快速入门的理想选择。

支持的文件类型

默认情况下,SimpleDirectoryReader 会尝试读取所有文件,并将其视为纯文本处理。除普通文本外,它还明确支持以下文件类型(通过文件扩展名自动识别):

  • .csv - comma-separated values

  • .docx - Microsoft Word

  • .epub - EPUB ebook format

  • .hwp - Hangul Word Processor

  • .ipynb - Jupyter Notebook

  • .jpeg, .jpg - JPEG image

  • .mbox - MBOX email archive

  • .md - Markdown

  • .mp3, .mp4 - audio and video

  • .pdf - Portable Document Format

  • .png - Portable Network Graphics

  • .ppt, .pptm, .pptx - Microsoft PowerPoint

您可能会注意到这里缺少 JSON 文件类型——针对 JSON 格式,我们推荐使用专用的 JSON Loader 工具。

基本的用法

最基本的用法是传入一个 input_dir 参数,系统将自动加载该目录下所有支持的文件类型:

from llama_index.core import SimpleDirectoryReaderreader = SimpleDirectoryReader(input_dir="path/to/directory")
documents = reader.load_data()

子目录读取功能说明

默认情况下,SimpleDirectoryReader 仅读取目录顶层的文件。如需读取子目录中的文件,需设置参数 recursive=True

SimpleDirectoryReader(input_dir="path/to/directory", recursive=True)

文件加载迭代处理

您还可以使用 iter_data() 方法在文件加载时进行迭代处理:

reader = SimpleDirectoryReader(input_dir="path/to/directory", recursive=True)
all_docs = []
for docs in reader.iter_data():# <do something with the documents per file>all_docs.extend(docs)
文件加载限制机制

除了加载目录中的所有文件,您还可以直接传入文件路径列表进行选择性加载:

# 通过明确路径列表加载特定文件
selected_files = ['/data/reports/Q1.pdf','/data/notes/meeting.docx'
]
reader = SimpleDirectoryReader(input_files=selected_files  # 关键参数
)

或者,您可以通过 exclude 参数指定需要排除的文件路径列表:

reader = SimpleDirectoryReader(input_dir="./project_docs",exclude=["temp/backup.pdf",      # 特定文件排除"drafts/",              # 整个目录排除"*.tmp"                # 通配符模式排除]
)

您还可以通过设置 required_exts 参数,指定仅加载特定扩展名的文件:

reader = SimpleDirectoryReader(input_dir="./documents",required_exts=[".pdf", ".docx", ".pptx"],  # 白名单扩展名exclude=[".~lock.*"]  # 可搭配黑名单使用
)

您可以通过设置 num_files_limit 参数来限制最大文件加载数量:

reader = SimpleDirectoryReader(input_dir="./big_data",num_files_limit=1000,  # 最多加载1000个文件file_ordering="modified_desc"  # 按修改时间降序优先加载
)
指定文件编码

SimpleDirectoryReader 默认要求文件采用 UTF-8 编码,但您可以通过 encoding 参数自定义编码格式:

reader = SimpleDirectoryReader(input_dir="./text_data",encoding="utf-8",  # 默认编码fallback_encodings=["gbk", "iso-8859-1"]  # 备选编码
)

http://www.dtcms.com/wzjs/276386.html

相关文章:

  • 做纺织机械的网站域名海外社交媒体营销
  • 开传奇私服网站怎么做某一网站seo策划方案
  • qq空间怎么做网站网上电商平台开发
  • php能开发大型网站北京网站营销与推广
  • wordpress iis 分页 404江门搜狗网站推广优化
  • 戴尔公司网站建设成功的关键是什么最近新闻头条
  • 360怎么免费建网站东莞网络推广策略
  • 全椒做网站云浮新增确诊病例30例
  • 做设计素材在哪个网站啦啦啦资源视频在线观看8
  • 什么专业是做网站哪里注册域名最便宜
  • 医疗网站建设新闻想做网络推广如何去做
  • dedecms 网站首页标签百度搜索风云榜小说总榜
  • 设计logo去哪里找怎么做好seo推广
  • 广告制作公司名称关键词优化公司推荐
  • 郑州模板建站多少钱班级优化大师
  • 杭州网站做的好公司seo营销策划
  • 换个网站对seo有什么影响如何做网络营销
  • wap手机网站建设seo上海优化
  • 企业网站推广的方式有哪些广州代运营公司有哪些
  • 上海网站建设公司招人2024年4月新冠疫情结束了吗
  • 站长工具在线免费观看广告推销
  • jsp动态网站开发实用教程做网页设计一个月能挣多少
  • 铁岭免费网站建设seo关键词排名优化怎么样
  • 深圳开发公司温州seo网站推广
  • 綦江建设银行网站品牌网络营销策划方案
  • 交互式网站模板四川seo推广公司
  • 网站建设公司上海做网站公司排名百度服务中心人工客服
  • 豫港大厦 做网站广告联盟接单平台
  • 域名申请好了 要怎么做网站企业qq官方下载
  • 网站设计有什么前景seo网站推广主要目的不包括