当前位置: 首页 > wzjs >正文

用wordpress建站之后如何优化最新全国疫情实时大数据

用wordpress建站之后如何优化,最新全国疫情实时大数据,农村自建房设计图纸大全,国外的营销网站回到目录 【评测】推理和微调 “GTE文本向量-中文-通用领域-base”模型 GTE文本向量-中文-通用领域-base 模型介绍 ,尝试跑通页面的推理和微调案例 运行环境:AMD 8700G ddr5-4800-64GB nvidia 4090D ubuntu24.04 0. 安装modelscope基础环境 参考 …

回到目录

【评测】推理和微调 “GTE文本向量-中文-通用领域-base”模型

GTE文本向量-中文-通用领域-base 模型介绍 ,尝试跑通页面的推理和微调案例
运行环境:AMD 8700G + ddr5-4800-64GB + nvidia 4090D + ubuntu24.04

0. 安装modelscope基础环境

参考 环境安装

1. 推理案例

1.1. 运行推理案例程序

# test_gte_embedding.py
from modelscope.models import Model
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasksmodel_id = "iic/nlp_gte_sentence-embedding_chinese-base"
pipeline_se = pipeline(Tasks.sentence_embedding,model=model_id,sequence_length=512) # sequence_length 代表最大文本长度,默认值为128# 当输入包含“soure_sentence”与“sentences_to_compare”时,会输出source_sentence中首个句子与sentences_to_compare中每个句子的向量表示,以及source_sentence中首个句子与sentences_to_compare中每个句子的相似度。
inputs = {"source_sentence": ["吃完海鲜可以喝牛奶吗?"],"sentences_to_compare": ["不可以,早晨喝牛奶不科学","吃了海鲜后是不能再喝牛奶的,因为牛奶中含得有维生素C,如果海鲜喝牛奶一起服用会对人体造成一定的伤害","吃海鲜是不能同时喝牛奶吃水果,这个至少间隔6小时以上才可以。","吃海鲜是不可以吃柠檬的因为其中的维生素C会和海鲜中的矿物质形成砷"]}result = pipeline_se(input=inputs)
print (result)inputs2 = {"source_sentence": ["不可以,早晨喝牛奶不科学","吃了海鲜后是不能再喝牛奶的,因为牛奶中含得有维生素C,如果海鲜喝牛奶一起服用会对人体造成一定的伤害","吃海鲜是不能同时喝牛奶吃水果,这个至少间隔6小时以上才可以。","吃海鲜是不可以吃柠檬的因为其中的维生素C会和海鲜中的矿物质形成砷"]
}
result = pipeline_se(input=inputs2)
print (result)
 $ source ~/.venv/bin/activate $ uv run test_gte_embedding.py
...2.0832840e-02,  2.3828523e-02, -1.1581291e-02]], dtype=float32), 'scores': [0.8859604597091675, 0.9830712080001831, 0.966042160987854, 0.891857922077179]}

运行过程中,查看nvidia-smi,基本用不上GPU资源。中间两个选项的得分高,与实际的语义相符。

1.2. 修改test_gte_embedding.py后运行

 $ vi test_gte_embedding.py
inputs = {"source_sentence": ["吃完海鲜可以喝牛奶吗?"],"sentences_to_compare": ["海鲜吃多了过敏",    <-- 增加这一条 sentence"不可以,早晨喝牛奶不科学","吃了海鲜后是不能再喝牛奶的,因为牛奶中含得有维生素C,如果海鲜喝牛奶一起服用会对人体造成一定的伤害","吃海鲜是不能同时喝牛奶吃水果,这个至少间隔6小时以上才可以。","吃海鲜是不可以吃柠檬的因为其中的维生素C会和海鲜中的矿物质形成砷"]}$ uv run test_gte_embedding.py
...0.03249872, -0.0043882 ]], shape=(6, 768), dtype=float32), 'scores': [0.6142874360084534, 0.6227918863296509, 0.8829822540283203, 0.8409826755523682, 0.6533908247947693]}
...inputs = {"source_sentence": ["吃完海鲜可以喝牛奶吗?"],"sentences_to_compare": ["不可以,早晨喝牛奶不科学","吃了海鲜后是不能再喝牛奶的,因为牛奶中含得有维生素C,如果海鲜喝牛奶一起服用会对人体造成一定的伤害","吃海鲜是不能同时喝牛奶吃水果,这个至少间隔6小时以上才可以。","吃海鲜是不可以吃柠檬的因为其中的维生素C会和海鲜中的矿物质形成砷","海鲜吃多了过敏",    <-- 这一条 sentence放到最后面]}0.03353969, -0.03277201]], shape=(6, 768), dtype=float32), 'scores': [0.6227918863296509, 0.8829822540283203, 0.8409826755523682, 0.6533908247947693, 0.6142874360084534]}

结论:

  1. 数组变化后,数组内的sentence会计算出不同score;
  2. sentence的score与数组内部的排序无关;

2. 微调案例

2.1. 直接运行程序报错

# 需在GPU环境运行
# 加载数据集过程可能由于网络原因失败,请尝试重新运行代码
from modelscope.metainfo import Trainers                                                                                                                                                              
from modelscope.msdatasets import MsDataset
from modelscope.trainers import build_trainer
import tempfile
import ostmp_dir = tempfile.TemporaryDirectory().name
if not os.path.exists(tmp_dir):os.makedirs(tmp_dir)# load dataset
ds = MsDataset.load('dureader-retrieval-ranking', 'zyznull')
train_ds = ds['train'].to_hf_dataset()
dev_ds = ds['dev'].to_hf_dataset()
model_id = 'iic/nlp_gte_sentence-embedding_chinese-base'
def cfg_modify_fn(cfg):cfg.task = 'sentence-embedding'cfg['preprocessor'] = {'type': 'sentence-embedding','max_length': 256}cfg['dataset'] = {'train': {'type': 'bert','query_sequence': 'query','pos_sequence': 'positive_passages','neg_sequence': 'negative_passages','text_fileds': ['text'],'qid_field': 'query_id'},'val': {'type': 'bert','query_sequence': 'query','pos_sequence': 'positive_passages','neg_sequence': 'negative_passages','text_fileds': ['text'],'qid_field': 'query_id'},}cfg['train']['neg_samples'] = 4cfg['evaluation']['dataloader']['batch_size_per_gpu'] = 30cfg.train.max_epochs = 1cfg.train.train_batch_size = 4return cfg 
kwargs = dict(model=model_id,train_dataset=train_ds,work_dir=tmp_dir,eval_dataset=dev_ds,cfg_modify_fn=cfg_modify_fn)
trainer = build_trainer(name=Trainers.nlp_sentence_embedding_trainer, default_args=kwargs)
trainer.train()
 $ uv run test_gte_training.py
FileNotFoundError: https://huggingface.co/datasets/zyznull/dureader-retrieval-ranking/resolve/main/train.jsonl.gz
,科学上网,问题依旧

2.2. 手工下载(中间可能中断,多试几次)

[微调测试数据下载地址 https://hf-mirror.com/datasets/zyznull/dureader-retrieval-ranking/tree/main)
ubuntu下解压缩

 $ gzip -d dev.jsonl.gz$ gzip -d train.jsonl.gz

文件结构
test_gte_training.py

  • datasets
    • dev.jsonl
    • train.jsonl

2.3. 修改程序如下:

参考 魔塔的MsDataset.load()如何加载已经下载在本地的数据集修改程序

# test_gte_training.py
...
#ds = MsDataset.load('dureader-retrieval-ranking', 'zyznull')
#train_ds = ds['train'].to_hf_dataset()
#dev_ds = ds['dev'].to_hf_dataset()
...
上面三行修改为
...
ds = load_dataset('json', data_files={'train': 'dataset/train.jsonl', 'dev': 'dataset/dev.jsonl'})
train_ds = ds['train']
dev_ds = ds['dev']
...
 $ uv run test_gte_training.py
。。。
2025-05-29 13:52:51,782 - modelscope - INFO - epoch [1][21596/21599]    lr: 1.000e-02, eta: 0:00:00, iter_time: 0.144, data_load_time: 0.031, memory: 6967, loss: 3.0015
2025-05-29 13:52:51,937 - modelscope - INFO - epoch [1][21597/21599]    lr: 1.000e-02, eta: 0:00:00, iter_time: 0.151, data_load_time: 0.033, memory: 6967, loss: 2.9974
2025-05-29 13:52:52,081 - modelscope - INFO - epoch [1][21598/21599]    lr: 1.000e-02, eta: 0:00:00, iter_time: 0.148, data_load_time: 0.034, memory: 6967, loss: 2.9933
2025-05-29 13:52:52,200 - modelscope - INFO - epoch [1][21599/21599]    lr: 1.000e-02, eta: 0:00:00, iter_time: 0.115, data_load_time: 0.030, memory: 6967, loss: 2.7065
2025-05-29 13:52:52,552 - modelscope - INFO - Saving checkpoint at 1 epoch
2025-05-29 13:52:54,240 - modelscope - INFO - Train finished. Uploading models, waiting...
2025-05-29 13:52:54,316 - modelscope - INFO - {'done': True}
(ailife) ailife@ailife-System:~/workspace$

程序运行一小时,CPU占用不高,GPU满载运行,显存8096MB。最终结果存放在哪里呢?跑了一个寂寞。

本文结束

回到目录

http://www.dtcms.com/wzjs/236248.html

相关文章:

  • 营销型企业网站建设大学生网络营销策划书
  • 网站改版需求怎么制作网站
  • 可以免费做商业网站的cmswindows优化大师官方免费下载
  • 网站做视频怎么赚钱的镇江网站
  • 网站推广seo设置宁波seo公司推荐
  • 百度云盘做网站空间苏州网站制作开发公司
  • 顺德新网站制作石家庄百度推广排名优化
  • 江苏路街道网站建设app推广策略
  • 深圳做网站乐云seo费用优惠百度搜索风云榜小说总榜
  • 17.zwd一起做网站超级软文网
  • 一般网站隐蔽点么么进武汉大学人民医院洪山院区
  • 网站中英文互译 java怎么做网络营销品牌有哪些
  • 西安网站建设是什么市场推广专员
  • 手机版的学习网站郑州计算机培训机构哪个最好
  • wordpress自定义用户头像一键优化
  • 网站策划方案互联网金融营销案例
  • php网站数据库怎么上传个人优秀网页设计
  • 私服网站建设如何做网络营销推广
  • 网站怎么做营销今日军事新闻最新消息中国
  • 揭阳网站制作托管网页在线秒收录
  • 拍卖网站模板百度广告管家
  • 网站建设实战案例网络怎样做推广
  • 最新廊坊疫情最新消息莆田seo
  • linux下如何打开wordpress东莞网络营销优化
  • 湖南做网站 地址磐石网络最新军事新闻 今日 最新消息
  • 免费看网站源码成都网站搜索排名优化公司
  • 珠宝类网站建设可执行报告太原seo快速排名
  • 枞阳网站制作企业在线培训系统
  • 在网站制作完成后网站建设站长工具域名解析
  • 三七批发可做网站名吗年轻人不要做网络销售