当前位置: 首页 > wzjs >正文

自己建的网站如何百度搜索seo技术优化服务

自己建的网站如何百度搜索,seo技术优化服务,制作网站报价,wordpress优雅的暂停回到目录 【评测】推理和微调 “GTE文本向量-中文-通用领域-base”模型 GTE文本向量-中文-通用领域-base 模型介绍 ,尝试跑通页面的推理和微调案例 运行环境:AMD 8700G ddr5-4800-64GB nvidia 4090D ubuntu24.04 0. 安装modelscope基础环境 参考 …

回到目录

【评测】推理和微调 “GTE文本向量-中文-通用领域-base”模型

GTE文本向量-中文-通用领域-base 模型介绍 ,尝试跑通页面的推理和微调案例
运行环境:AMD 8700G + ddr5-4800-64GB + nvidia 4090D + ubuntu24.04

0. 安装modelscope基础环境

参考 环境安装

1. 推理案例

1.1. 运行推理案例程序

# test_gte_embedding.py
from modelscope.models import Model
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasksmodel_id = "iic/nlp_gte_sentence-embedding_chinese-base"
pipeline_se = pipeline(Tasks.sentence_embedding,model=model_id,sequence_length=512) # sequence_length 代表最大文本长度,默认值为128# 当输入包含“soure_sentence”与“sentences_to_compare”时,会输出source_sentence中首个句子与sentences_to_compare中每个句子的向量表示,以及source_sentence中首个句子与sentences_to_compare中每个句子的相似度。
inputs = {"source_sentence": ["吃完海鲜可以喝牛奶吗?"],"sentences_to_compare": ["不可以,早晨喝牛奶不科学","吃了海鲜后是不能再喝牛奶的,因为牛奶中含得有维生素C,如果海鲜喝牛奶一起服用会对人体造成一定的伤害","吃海鲜是不能同时喝牛奶吃水果,这个至少间隔6小时以上才可以。","吃海鲜是不可以吃柠檬的因为其中的维生素C会和海鲜中的矿物质形成砷"]}result = pipeline_se(input=inputs)
print (result)inputs2 = {"source_sentence": ["不可以,早晨喝牛奶不科学","吃了海鲜后是不能再喝牛奶的,因为牛奶中含得有维生素C,如果海鲜喝牛奶一起服用会对人体造成一定的伤害","吃海鲜是不能同时喝牛奶吃水果,这个至少间隔6小时以上才可以。","吃海鲜是不可以吃柠檬的因为其中的维生素C会和海鲜中的矿物质形成砷"]
}
result = pipeline_se(input=inputs2)
print (result)
 $ source ~/.venv/bin/activate $ uv run test_gte_embedding.py
...2.0832840e-02,  2.3828523e-02, -1.1581291e-02]], dtype=float32), 'scores': [0.8859604597091675, 0.9830712080001831, 0.966042160987854, 0.891857922077179]}

运行过程中,查看nvidia-smi,基本用不上GPU资源。中间两个选项的得分高,与实际的语义相符。

1.2. 修改test_gte_embedding.py后运行

 $ vi test_gte_embedding.py
inputs = {"source_sentence": ["吃完海鲜可以喝牛奶吗?"],"sentences_to_compare": ["海鲜吃多了过敏",    <-- 增加这一条 sentence"不可以,早晨喝牛奶不科学","吃了海鲜后是不能再喝牛奶的,因为牛奶中含得有维生素C,如果海鲜喝牛奶一起服用会对人体造成一定的伤害","吃海鲜是不能同时喝牛奶吃水果,这个至少间隔6小时以上才可以。","吃海鲜是不可以吃柠檬的因为其中的维生素C会和海鲜中的矿物质形成砷"]}$ uv run test_gte_embedding.py
...0.03249872, -0.0043882 ]], shape=(6, 768), dtype=float32), 'scores': [0.6142874360084534, 0.6227918863296509, 0.8829822540283203, 0.8409826755523682, 0.6533908247947693]}
...inputs = {"source_sentence": ["吃完海鲜可以喝牛奶吗?"],"sentences_to_compare": ["不可以,早晨喝牛奶不科学","吃了海鲜后是不能再喝牛奶的,因为牛奶中含得有维生素C,如果海鲜喝牛奶一起服用会对人体造成一定的伤害","吃海鲜是不能同时喝牛奶吃水果,这个至少间隔6小时以上才可以。","吃海鲜是不可以吃柠檬的因为其中的维生素C会和海鲜中的矿物质形成砷","海鲜吃多了过敏",    <-- 这一条 sentence放到最后面]}0.03353969, -0.03277201]], shape=(6, 768), dtype=float32), 'scores': [0.6227918863296509, 0.8829822540283203, 0.8409826755523682, 0.6533908247947693, 0.6142874360084534]}

结论:

  1. 数组变化后,数组内的sentence会计算出不同score;
  2. sentence的score与数组内部的排序无关;

2. 微调案例

2.1. 直接运行程序报错

# 需在GPU环境运行
# 加载数据集过程可能由于网络原因失败,请尝试重新运行代码
from modelscope.metainfo import Trainers                                                                                                                                                              
from modelscope.msdatasets import MsDataset
from modelscope.trainers import build_trainer
import tempfile
import ostmp_dir = tempfile.TemporaryDirectory().name
if not os.path.exists(tmp_dir):os.makedirs(tmp_dir)# load dataset
ds = MsDataset.load('dureader-retrieval-ranking', 'zyznull')
train_ds = ds['train'].to_hf_dataset()
dev_ds = ds['dev'].to_hf_dataset()
model_id = 'iic/nlp_gte_sentence-embedding_chinese-base'
def cfg_modify_fn(cfg):cfg.task = 'sentence-embedding'cfg['preprocessor'] = {'type': 'sentence-embedding','max_length': 256}cfg['dataset'] = {'train': {'type': 'bert','query_sequence': 'query','pos_sequence': 'positive_passages','neg_sequence': 'negative_passages','text_fileds': ['text'],'qid_field': 'query_id'},'val': {'type': 'bert','query_sequence': 'query','pos_sequence': 'positive_passages','neg_sequence': 'negative_passages','text_fileds': ['text'],'qid_field': 'query_id'},}cfg['train']['neg_samples'] = 4cfg['evaluation']['dataloader']['batch_size_per_gpu'] = 30cfg.train.max_epochs = 1cfg.train.train_batch_size = 4return cfg 
kwargs = dict(model=model_id,train_dataset=train_ds,work_dir=tmp_dir,eval_dataset=dev_ds,cfg_modify_fn=cfg_modify_fn)
trainer = build_trainer(name=Trainers.nlp_sentence_embedding_trainer, default_args=kwargs)
trainer.train()
 $ uv run test_gte_training.py
FileNotFoundError: https://huggingface.co/datasets/zyznull/dureader-retrieval-ranking/resolve/main/train.jsonl.gz
,科学上网,问题依旧

2.2. 手工下载(中间可能中断,多试几次)

[微调测试数据下载地址 https://hf-mirror.com/datasets/zyznull/dureader-retrieval-ranking/tree/main)
ubuntu下解压缩

 $ gzip -d dev.jsonl.gz$ gzip -d train.jsonl.gz

文件结构
test_gte_training.py

  • datasets
    • dev.jsonl
    • train.jsonl

2.3. 修改程序如下:

参考 魔塔的MsDataset.load()如何加载已经下载在本地的数据集修改程序

# test_gte_training.py
...
#ds = MsDataset.load('dureader-retrieval-ranking', 'zyznull')
#train_ds = ds['train'].to_hf_dataset()
#dev_ds = ds['dev'].to_hf_dataset()
...
上面三行修改为
...
ds = load_dataset('json', data_files={'train': 'dataset/train.jsonl', 'dev': 'dataset/dev.jsonl'})
train_ds = ds['train']
dev_ds = ds['dev']
...
 $ uv run test_gte_training.py
。。。
2025-05-29 13:52:51,782 - modelscope - INFO - epoch [1][21596/21599]    lr: 1.000e-02, eta: 0:00:00, iter_time: 0.144, data_load_time: 0.031, memory: 6967, loss: 3.0015
2025-05-29 13:52:51,937 - modelscope - INFO - epoch [1][21597/21599]    lr: 1.000e-02, eta: 0:00:00, iter_time: 0.151, data_load_time: 0.033, memory: 6967, loss: 2.9974
2025-05-29 13:52:52,081 - modelscope - INFO - epoch [1][21598/21599]    lr: 1.000e-02, eta: 0:00:00, iter_time: 0.148, data_load_time: 0.034, memory: 6967, loss: 2.9933
2025-05-29 13:52:52,200 - modelscope - INFO - epoch [1][21599/21599]    lr: 1.000e-02, eta: 0:00:00, iter_time: 0.115, data_load_time: 0.030, memory: 6967, loss: 2.7065
2025-05-29 13:52:52,552 - modelscope - INFO - Saving checkpoint at 1 epoch
2025-05-29 13:52:54,240 - modelscope - INFO - Train finished. Uploading models, waiting...
2025-05-29 13:52:54,316 - modelscope - INFO - {'done': True}
(ailife) ailife@ailife-System:~/workspace$

程序运行一小时,CPU占用不高,GPU满载运行,显存8096MB。最终结果存放在哪里呢?跑了一个寂寞。

本文结束

回到目录

http://www.dtcms.com/wzjs/158933.html

相关文章:

  • 网站的用户运营值得做吗简述网站内容如何优化
  • 怎么样做自己的网站新产品推广方案范文
  • 私人定制女装店sem优化和seo的区别
  • 郑州做网站建设的公司百度搜索引擎优化详解
  • 如何做自己微网站google网站
  • wordpress视频播放关键词优化外包服务
  • 苏州吴江保洁公司济南搜索引擎优化网站
  • 甘肃网站建设推广为什么sem的工资都不高
  • it学校培训机构晨阳seo
  • 哪个网站兼职做设计比较好网站营销与推广
  • 公网主机上做的网站如果访问白酒营销策划方案
  • 诚信通旺铺网站建设市场推广方案模板
  • 专业微信网站建设公司首选公司哪里有网页设计公司
  • 购物网站建设方案徐州百度推广总代理
  • 更改wordpress最大上传文件大小seo是什么缩写
  • 电梯网站建设扬州网络推广哪家好
  • 辽宁省住房和城乡建设部网站主页相似图片在线查找
  • 营销网站建设是什么意思东莞网站推广哪里找
  • python网页编辑器短视频seo询盘系统
  • 武进建设局网站进不去互联网公司排名2021
  • 食品网站的功能定位电脑培训学校
  • 毕业论文网站开发需要多少钱桌面百度
  • 免费教做面食的网站seo优化思路
  • 在linux系统上用什么做网站百度推广手机版
  • 四川省建设厅职改办网站百度云app下载安装
  • 公众平台网站开发哪家好兰州网络推广关键词优化
  • 网站 做百度推广有没有效果怎样制作一个网站
  • 婚庆手机版网站建设百度指数大数据
  • 天津企业网站建设一条龙销售推广的方法都有哪些
  • 做调查问卷的网站可靠吗2022年网络流行语