当前位置：首页 > news >正文

AI知识库- Cherry Studio构建本地知识库

news 2025/11/3 10:12:55

Cherry Studio本地知识库搭建详细手册

准备工作

硬件要求

操作系统: Windows 10/11, macOS 10.15+, Linux (Ubuntu 18.04+推荐)
处理器: 双核2.0GHz或更高
内存: 8GB以上(16GB推荐，特别是处理大量文档时)
存储空间: 至少20GB可用空间(根据知识库大小调整)
网络: 本地网络连接(如需远程访问需配置)

软件要求

Docker (推荐使用Docker Desktop)
Python 3.8+
Git版本控制工具
文本编辑器(VSCode推荐)

安装Cherry Studio

方法一: Docker安装(推荐)

安装Docker Desktop

Windows/macOS: 从官网下载安装包

Linux:

sudo apt-get update
sudo apt-get install docker.io
sudo systemctl start docker
sudo systemctl enable docker

拉取Cherry Studio镜像

docker pull cherrystudio/ai-knowledge-base:latest

运行容器

docker run -d -p 8080:8080 -v /path/to/local/data:/data --name cherry-kb cherrystudio/ai-knowledge-base

(将/path/to/local/data替换为你本地存储数据的路径)

方法二: 源码安装

克隆仓库

git clone https://github.com/cherrystudio/ai-knowledge-base.git
cd ai-knowledge-base

创建虚拟环境

python -m venv venv
source venv/bin/activate  # Linux/macOS
venv\Scripts\activate     # Windows

安装依赖
```
pip install -r requirements.txt
```
启动服务
```
python app.py
```

配置本地知识库

初始化设置

访问 http://localhost:8080 (如果使用默认端口)
首次登录使用默认管理员账号:
- 用户名: admin
- 密码: admin123
立即修改默认密码(安全性考虑)

基本配置

进入"系统设置" > “知识库配置”
设置知识库名称和描述
配置存储路径(默认为容器内的/data或你指定的挂载路径)
选择分词器(中文推荐选择jieba或HanLP)
设置索引更新频率(默认每小时自动更新)

数据导入与管理

支持的文件类型

文档: PDF, Word(.docx), Excel(.xlsx), PowerPoint(.pptx)
文本: .txt, .md
网页: .html
代码: .py, .java, .cpp等常见编程语言文件

批量导入文档

进入"数据管理" > “文档导入”
选择"批量导入"模式
拖放文件或选择文件夹
设置元数据(可选):
- 文档分类
- 标签
- 访问权限
点击"开始导入"

单个文档添加

点击"添加文档"按钮
上传文件或粘贴文本内容
填写文档信息:
- 标题
- 描述
- 作者
- 关键词
选择是否立即建立索引

文档管理

文档列表视图
- 按名称、类型、大小、修改日期排序
- 搜索框快速定位文档
文档编辑
- 双击文档进入编辑模式
- 更新内容或元数据
文档删除
- 选择文档后点击删除
- 可设置是否同时删除源文件

搜索与查询功能

基本搜索

在顶部搜索栏输入查询关键词
选择搜索范围:
- 全部文档
- 特定分类
- 我的收藏
点击搜索或按Enter

高级搜索

点击"高级搜索"展开选项
使用搜索运算符:
- AND: “机器学习 AND 算法”
- OR: “Python OR Java”
- NOT: “云计算 NOT 阿里云”
- 引号精确匹配: ““神经网络””
按字段过滤:
- 作者: author:张三
- 标题: title:入门指南
- 日期: date:2023-01-01…2023-12-31

搜索结果处理

结果排序:
- 按相关性(默认)
- 按日期
- 按文件大小
结果导出:
- 导出为CSV
- 导出选中条目
- 生成摘要报告

用户权限管理

用户角色

管理员: 完全控制权限
编辑者: 添加/编辑文档，不能更改系统设置
查看者: 只能查看和搜索文档

添加新用户

进入"系统设置" > “用户管理”
点击"添加用户"
填写用户信息:
- 用户名
- 邮箱(可选)
- 初始密码
- 分配角色
设置文档访问权限(可选)

权限控制

文档级权限:
- 为单个文档设置可访问用户/角色
分类级权限:
- 控制对整个分类的访问
操作权限:
- 控制编辑、删除、导出等操作

维护与优化

定期维护

索引优化:
- 每月执行一次完整重建索引
- 进入"系统设置" > “索引管理” > “重建索引”
数据备份:
- 自动备份设置
- 手动导出知识库快照
日志清理:
- 设置日志保留策略
- 定期清理旧日志

性能优化

对于大型知识库:
- 增加索引内存分配
- 使用SSD存储
- 考虑分布式部署
查询优化:
- 添加常用查询到快捷方式
- 创建预定义搜索模板

更新升级

检查新版本:

docker pull cherrystudio/ai-knowledge-base:latest

停止旧容器:
```
docker stop cherry-kb
```
删除旧容器:
```
docker rm cherry-kb
```
启动新容器(使用相同参数)

常见问题解答

Q1: 导入的PDF文档无法被正确索引

A: 确保PDF是可选的文本PDF，不是扫描件。如果是扫描件，需要先进行OCR处理。

Q2: 搜索结果显示不全

检查索引是否最新
尝试重建索引
检查文档权限设置

Q3: 系统运行缓慢

检查系统资源使用情况
增加Docker内存分配
减少同时索引的文档数量

Q4: 如何实现多人在线协作

确保所有用户在同一个局域网
或者配置端口转发和DDNS实现远程访问
注意设置适当的权限控制

Q5: 数据如何备份和迁移

使用内置的备份功能导出知识包(.kb文件)
或者直接备份挂载的/data目录
迁移时在新机器上恢复备份或挂载相同目录

本手册提供了Cherry Studio本地知识库搭建的基础指导，根据实际需求可能需要调整部分配置。建议定期查看官方文档获取最新功能和最佳实践。

查看全文

http://www.dtcms.com/a/203466.html

元宇宙中的虚拟经济：机遇与挑战

STM32F103_LL库+寄存器学习笔记12.2 - 串口DMA高效收发实战2：进一步提高串口接收的效率

C++ 空间配置器

【周输入】517周阅读推荐-1

数组的概述

大模型（3）——RAG（Retrieval-Augmented Generation，检索增强生成）

JAVA基础——数组与二维数组

基于Python批量删除文件和批量增加文件

Linux 下 rsync 工具详解与实用指南

数据库 1.0.1

如何使用通义灵码提高前端开发效率

FastDatasets新功能，让模型学会“思考”！

文件操作和IO-2 使用Java操作文件

如何使用VH6501进行CAN采样点测试

【办公类-18-04】（Python）“验血单信息”批量生成打印（学校、班级、姓名、性别）

【Linux基础操作】

【MySQL成神之路】运算符总结

MySQL底层专题之索引数据结构和存储引擎

笔记：显示实现接口如何实现，作用是什么

算法打卡第二天

【老马】流程引擎（Process Engine）概览

Linux系统中，Ctrl+C的运行过程是什么？

接口测试速成指南：基础知识+工具使用全解析

如何查看Python内置函数列表

连接Redis数据库

JWT单双token实现机制记录

2025系统架构师---案例题（押题）

Pydantic数据验证实战指南：让Python应用更健壮与智能

使用引用的原因和运算符重载的必要性

【Python训练营打卡】day31 @浙大疏锦行