AI知识库- Cherry Studio构建本地知识库
Cherry Studio本地知识库搭建详细手册
目录
- 准备工作
- 安装Cherry Studio
- 配置本地知识库
- 数据导入与管理
- 搜索与查询功能
- 用户权限管理
- 维护与优化
- 常见问题解答
准备工作
硬件要求
- 操作系统: Windows 10/11, macOS 10.15+, Linux (Ubuntu 18.04+推荐)
- 处理器: 双核2.0GHz或更高
- 内存: 8GB以上(16GB推荐,特别是处理大量文档时)
- 存储空间: 至少20GB可用空间(根据知识库大小调整)
- 网络: 本地网络连接(如需远程访问需配置)
软件要求
- Docker (推荐使用Docker Desktop)
- Python 3.8+
- Git版本控制工具
- 文本编辑器(VSCode推荐)
安装Cherry Studio
方法一: Docker安装(推荐)
-
安装Docker Desktop
- Windows/macOS: 从官网下载安装包
- Linux:
sudo apt-get update sudo apt-get install docker.io sudo systemctl start docker sudo systemctl enable docker
-
拉取Cherry Studio镜像
docker pull cherrystudio/ai-knowledge-base:latest
-
运行容器
docker run -d -p 8080:8080 -v /path/to/local/data:/data --name cherry-kb cherrystudio/ai-knowledge-base
(将
/path/to/local/data
替换为你本地存储数据的路径)
方法二: 源码安装
-
克隆仓库
git clone https://github.com/cherrystudio/ai-knowledge-base.git cd ai-knowledge-base
-
创建虚拟环境
python -m venv venv source venv/bin/activate # Linux/macOS venv\Scripts\activate # Windows
-
安装依赖
pip install -r requirements.txt
-
启动服务
python app.py
配置本地知识库
初始化设置
- 访问
http://localhost:8080
(如果使用默认端口) - 首次登录使用默认管理员账号:
- 用户名: admin
- 密码: admin123
- 立即修改默认密码(安全性考虑)
基本配置
- 进入"系统设置" > “知识库配置”
- 设置知识库名称和描述
- 配置存储路径(默认为容器内的/data或你指定的挂载路径)
- 选择分词器(中文推荐选择jieba或HanLP)
- 设置索引更新频率(默认每小时自动更新)
数据导入与管理
支持的文件类型
- 文档: PDF, Word(.docx), Excel(.xlsx), PowerPoint(.pptx)
- 文本: .txt, .md
- 网页: .html
- 代码: .py, .java, .cpp等常见编程语言文件
批量导入文档
- 进入"数据管理" > “文档导入”
- 选择"批量导入"模式
- 拖放文件或选择文件夹
- 设置元数据(可选):
- 文档分类
- 标签
- 访问权限
- 点击"开始导入"
单个文档添加
- 点击"添加文档"按钮
- 上传文件或粘贴文本内容
- 填写文档信息:
- 标题
- 描述
- 作者
- 关键词
- 选择是否立即建立索引
文档管理
- 文档列表视图
- 按名称、类型、大小、修改日期排序
- 搜索框快速定位文档
- 文档编辑
- 双击文档进入编辑模式
- 更新内容或元数据
- 文档删除
- 选择文档后点击删除
- 可设置是否同时删除源文件
搜索与查询功能
基本搜索
- 在顶部搜索栏输入查询关键词
- 选择搜索范围:
- 全部文档
- 特定分类
- 我的收藏
- 点击搜索或按Enter
高级搜索
- 点击"高级搜索"展开选项
- 使用搜索运算符:
- AND: “机器学习 AND 算法”
- OR: “Python OR Java”
- NOT: “云计算 NOT 阿里云”
- 引号精确匹配: ““神经网络””
- 按字段过滤:
- 作者: author:张三
- 标题: title:入门指南
- 日期: date:2023-01-01…2023-12-31
搜索结果处理
- 结果排序:
- 按相关性(默认)
- 按日期
- 按文件大小
- 结果导出:
- 导出为CSV
- 导出选中条目
- 生成摘要报告
用户权限管理
用户角色
- 管理员: 完全控制权限
- 编辑者: 添加/编辑文档,不能更改系统设置
- 查看者: 只能查看和搜索文档
添加新用户
- 进入"系统设置" > “用户管理”
- 点击"添加用户"
- 填写用户信息:
- 用户名
- 邮箱(可选)
- 初始密码
- 分配角色
- 设置文档访问权限(可选)
权限控制
- 文档级权限:
- 为单个文档设置可访问用户/角色
- 分类级权限:
- 控制对整个分类的访问
- 操作权限:
- 控制编辑、删除、导出等操作
维护与优化
定期维护
- 索引优化:
- 每月执行一次完整重建索引
- 进入"系统设置" > “索引管理” > “重建索引”
- 数据备份:
- 自动备份设置
- 手动导出知识库快照
- 日志清理:
- 设置日志保留策略
- 定期清理旧日志
性能优化
- 对于大型知识库:
- 增加索引内存分配
- 使用SSD存储
- 考虑分布式部署
- 查询优化:
- 添加常用查询到快捷方式
- 创建预定义搜索模板
更新升级
- 检查新版本:
docker pull cherrystudio/ai-knowledge-base:latest
- 停止旧容器:
docker stop cherry-kb
- 删除旧容器:
docker rm cherry-kb
- 启动新容器(使用相同参数)
常见问题解答
Q1: 导入的PDF文档无法被正确索引
A: 确保PDF是可选的文本PDF,不是扫描件。如果是扫描件,需要先进行OCR处理。
Q2: 搜索结果显示不全
A:
- 检查索引是否最新
- 尝试重建索引
- 检查文档权限设置
Q3: 系统运行缓慢
A:
- 检查系统资源使用情况
- 增加Docker内存分配
- 减少同时索引的文档数量
Q4: 如何实现多人在线协作
A:
- 确保所有用户在同一个局域网
- 或者配置端口转发和DDNS实现远程访问
- 注意设置适当的权限控制
Q5: 数据如何备份和迁移
A:
- 使用内置的备份功能导出知识包(.kb文件)
- 或者直接备份挂载的/data目录
- 迁移时在新机器上恢复备份或挂载相同目录
本手册提供了Cherry Studio本地知识库搭建的基础指导,根据实际需求可能需要调整部分配置。建议定期查看官方文档获取最新功能和最佳实践。