标签分类调研
1. 任务
本周任务:
(1)合并两个版本代码,发布一个新网址供比较
(2)调研分类标签的方法
2. 修改代码
代码已修改好,将文件压缩后通过WinSCP转移到服务器上,需要重新配环境。
步骤:
在Linux系统中,虚拟环境的激活脚本位于bin目录下,而不是Scripts目录(windows)。
所以先删除原本环境:
rm -rf .venv下载一个没有pip的虚拟环境,不然会下载失败,而且没有sudo权限,无法安装python3-10-venv
# 创建不带pip的虚拟环境
python3 -m venv --without-pip venv# 激活虚拟环境(即使没有pip,基本环境还是可用的)
source venv/bin/activate# 下载get-pip.py
# curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py
# curl不可用,使用wget
wget https://bootstrap.pypa.io/get-pip.py# 在虚拟环境中安装 pip
python get-pip.py然后安装需要的包
由于和python3.10版本兼容问题,需要把requirements.txt的
torch=1.11.0
scikit-learn==1.0.2
# 进入项目目录
cd "Mind-Dharma Q&A System"# 安装requirements.txt中的所有包
pip install -r requirements.txt会出现 tokenizers 包因为需要 Rust 编译器而失败。
而且之前下载的没有被记录下来,所有现在一个一个安装,不要使用requirements.txt来安装
# 安装 jieba
pip install jieba==0.42.1# 安装 numpy
pip install numpy==1.21.2# 安装 pandas
pip install pandas==1.3.3# 安装 scikit-learn
pip install scikit-learn==1.0.2# 安装 torch
pip install torch==1.11.0# 安装 gunicorn(如果已经安装会跳过)
pip install gunicorn==20.1.0运行程序
python xinfa_QA.py
3. 标签分类
做法:如果采用BGE模型,生成向量后,进行相似度计算,一级标签可以通过相似度最高的语句,生成和它一样的标签,二级标签可以通过返回top-k个答案的标签放回。
但是这样的缺点就是:
如果数据集中没有与新问题相似的问题,那么预测可能不准确。
如果数据集中存在错误标签,也会影响预测结果。
关于HiTIN:
