当前位置：首页 > news >正文

标签分类调研

news 2025/11/13 6:01:06

1. 任务

本周任务：

（1）合并两个版本代码，发布一个新网址供比较

（2）调研分类标签的方法

2. 修改代码

代码已修改好，将文件压缩后通过WinSCP转移到服务器上，需要重新配环境。

步骤：

在Linux系统中，虚拟环境的激活脚本位于bin目录下，而不是Scripts目录（windows）。

所以先删除原本环境：

rm -rf .venv

下载一个没有pip的虚拟环境，不然会下载失败，而且没有sudo权限，无法安装python3-10-venv

# 创建不带pip的虚拟环境
python3 -m venv --without-pip venv# 激活虚拟环境（即使没有pip，基本环境还是可用的）
source venv/bin/activate# 下载get-pip.py
# curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py
# curl不可用，使用wget
wget https://bootstrap.pypa.io/get-pip.py# 在虚拟环境中安装 pip
python get-pip.py

然后安装需要的包

由于和python3.10版本兼容问题，需要把requirements.txt的

torch=1.11.0

scikit-learn==1.0.2

# 进入项目目录
cd "Mind-Dharma Q&A System"# 安装requirements.txt中的所有包
pip install -r requirements.txt

会出现 tokenizers 包因为需要 Rust 编译器而失败。

而且之前下载的没有被记录下来，所有现在一个一个安装，不要使用requirements.txt来安装

# 安装 jieba
pip install jieba==0.42.1# 安装 numpy
pip install numpy==1.21.2# 安装 pandas
pip install pandas==1.3.3# 安装 scikit-learn
pip install scikit-learn==1.0.2# 安装 torch
pip install torch==1.11.0# 安装 gunicorn（如果已经安装会跳过）
pip install gunicorn==20.1.0

运行程序

python xinfa_QA.py

3. 标签分类

做法：如果采用BGE模型，生成向量后，进行相似度计算，一级标签可以通过相似度最高的语句，生成和它一样的标签，二级标签可以通过返回top-k个答案的标签放回。

但是这样的缺点就是：

如果数据集中没有与新问题相似的问题，那么预测可能不准确。
如果数据集中存在错误标签，也会影响预测结果。

关于HiTIN：

http://www.dtcms.com/a/600811.html

相关文章：

太原有网站工程公司吗网站建设预招标

宁夏住房和城乡建设厅网站执业资格游戏门户网站建设

社区养老保障|智慧养老|基于springboot+小程序社区养老保障系统设计与实现(源码+数据库+文档)

基于springboot个性化定制的智慧校园管理系统【带源码和文档】

12306自动抢票系统：基于DrissionPage的智能购票实战

【内容检测 EXPO-HM】优化训练方式提升解释性与准确性

医疗小程序05我的就诊卡

React与Vue 的声明式 UI 对比原理篇（1）

vue3实现列表无缝滚动

如何开通自己的网站北京门户网站制作

【前端面试】Vue篇

AI重塑IT职场：挑战与机遇并存

微信小程序uniapp开发附源码——长图拼接

MySQL【表的内外连接】

名字姓名起名打分评分抖音快手微信小程序看广告流量主开源

Windows下使用 Docker 安装MySQL

微信小程序里用 setData() 修改数据并打印输出的几种写法

微信小程序map组件聚合簇样式自定义

河北住房和城乡建设厅网站电话海报设计图片简单

好的俄文网站设计大学学风建设专题网站

领域驱动设计系列文章汇总

C++11拓展语法

智慧医疗：FHIR R5、联邦学习与MLOps三位一体的AI产品化实战指南（下）

创建一个达梦库需要多大空间

Redis_11_类型补充+命令补充+RESP

网站设计哪家便宜seo网站做推广公司

用于感知图像超分辨率的自编码监督（易于理解版本）

地图可视化实践录：空间分析库Turf.js的学习

长沙制作网站公司哪家好广州seo推广营销

11、prometheus-PromQL-5-聚合计算函数