当前位置: 首页 > news >正文

用向量数据库建立本地知识库

本实例是通过向量数据库对本地文本进行拆分,拆分后每一块文本转成向量存放到向量数据库。这样在搜索内容时,会先把问题转成向量,然后就可以根据问题向量在向量数据库里进行搜索,快速找到对应内容。本程序完全离线运行(无需网络连接),支持模型本地存储(./m3e-base)和数据本地存储(./vector_db)。可以用于企业知识库检索、法律文档查询、学术论文搜索、个人文档管理等场景。

多格式文档处理
支持格式有PDF、Word(.docx)、纯文本(.txt)、Markdown(.md)、HTML(.html)。自动识别文件类型并选择对应解析器,支持批量处理目录中的多种格式文件。

扩展支持的文件格式:

| 格式 | 扩展名 | 依赖包 |

| PDF | .pdf | pypdf |

| Word | .docx | python-docx |

| 纯文本 | .txt | - |

| Markdown | .md | unstructured |

| HTML | .html | unstructured |

文本预处理
使用递归字符拆分器智能分块(500字符/块,50字符重叠),自动剔除空白或无效文本块,自动识别文本编码格式(特别是对中文支持)。

相关文章:

  • Linux时间子系统学习笔记
  • 【大模型篇】推理模型大作战(QwQ-32B vs DeepSeek-R1)
  • 【二分查找、滑动窗口】P10389 [蓝桥杯 2024 省 A] 成绩统计|普及+
  • ROS2 Rviz 实战:给 panda 机械臂场景塞个圆柱体
  • Win7重装不翻车!ISO镜像安全下载渠道+BIOS设置避雷手册
  • `label` 标签的 `for` 属性详解
  • Nacos高频面试题10个
  • Mybatis的优缺点
  • 苹果商店上架流程,app上架发布流程
  • supervisord管理Gunicorn进程,使用Nginx作为反向代理运行flask web项目
  • 【无监督学习】层次聚类步骤及matlab实现
  • SQL语句执行顺序是什么?
  • Linux之SO_REUSEPORT属性笔记
  • 牛客周赛 Round 83
  • 996引擎-问题处理:实现自定义道具变身卡
  • R语言——数据类型
  • Embedding技术:DeepWalkNode2vec
  • 开发社交陪玩app小程序
  • 三口插头 接线定义
  • 【Ubuntu】Vim 9.1.0821 编译安装
  • 牡丹江3d网站开发/百度广告商
  • 怎么在悉尼做网站/小红书如何引流推广
  • 做网站编辑大专可以吗/sem代运营
  • 备案名称和网站名称不一致/湖南seo推广
  • wordpress导航站/免费外链网
  • 网站排名如何提升/营销网站建设培训学校