当前位置: 首页 > news >正文

服务器搭建网站制作网站怎么用图片做背景

服务器搭建网站,制作网站怎么用图片做背景,silverlight 做的网站,自己怎么做游戏软件本篇笔记是在记录跑通微Qwen2.5-1.5B大模型的流程,自用,仅供参考。 文章目录 0. 前言1. 安装LLaMA-Factory2. 下载模型3. 数据集准备4. 训练yaml文件编写5. 训练6. 合并模型7. 模型推理结束语 0. 前言 Qwen2.5-1.5B大模型的官方github地址:h…

本篇笔记是在记录跑通+微Qwen2.5-1.5B大模型的流程,自用,仅供参考。

文章目录

  • 0. 前言
  • 1. 安装LLaMA-Factory
  • 2. 下载模型
  • 3. 数据集准备
  • 4. 训练yaml文件编写
  • 5. 训练
  • 6. 合并模型
  • 7. 模型推理
  • 结束语


0. 前言

Qwen2.5-1.5B大模型的官方github地址:https://github.com/QwenLM/Qwen2.5

1. 安装LLaMA-Factory

鉴于网上大部分的教程都是使用的llama-factory来进行的微调,包括qwen2.5的官方github中也贴有llama-factory的example
在这里插入图片描述
首先,在相应的地址进行克隆项目
我这个是在windows下运行的,所以使用的是git bash

git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]"

在这里插入图片描述
然后创建新的环境 此处建议创建新环境,防止已有环境会起冲突。需要提前安装anaconda

conda create -n llama-factory python=3.11
conda activate llama-factory

然后,安装llama-factory的依赖包 cd为进入所克隆项目的路径

cd LLaMA-Factory
pip install -e ".[torch,metrics]"

在这里插入图片描述
最后,验证是否安装成功

llamafactory-cli version

在这里插入图片描述
至此,llama-factory安装完成。

2. 下载模型

此处我使用的是modelscope下载,因为要快一些。需要先安装一下modelscope。

pip install modelscope

在这里插入图片描述

modelscope download --model Qwen/Qwen2.5-1.5B-Instruct --local_dir your_path/Qwen2.5-1.5B-Instruct

在这里插入图片描述
至此,模型下载完成。

3. 数据集准备

根据github中的官方文档写的数据集的格式为
在这里插入图片描述
数据集准备完成后,注册自定义的训练数据
在这里插入图片描述

4. 训练yaml文件编写

新建一个llama_qwen_train.yaml文件(名字可以自己取),把训练相关参数复制进去,一些值也可以根据自己情况进行修改。此处我参考的是qwen官方文档https://github.com/QwenLM/Qwen2.5/blob/main/examples/llama-factory/finetune-zh.md
和这篇文章LLM基础学习03:Qwen2.5-1.5B-Instruct指令微调全流程实践——LLaMA Factory框架与GSM8K评估

官方文档的
在这里插入图片描述

另一篇文章的
在这里插入图片描述

5. 训练

编写完训练参数的yaml文件以后运行,使用以下命令进行运行

llamafactory-cli train llama_qwen_train.yaml 

命令行运行以后报错
在这里插入图片描述
解决方案
在这里插入图片描述
然后成功运行
在这里插入图片描述

6. 合并模型

依旧参考上述所提的官方文档,进行模型的合并
在这里插入图片描述

7. 模型推理

使用合并好的模型进行推理,依旧采用的是官方文档

from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # the device to load the model onto
model_name_or_path = YOUR-MODEL-PATHmodel = AutoModelForCausalLM.from_pretrained(model_name_or_path,torch_dtype="auto",device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)prompt = "Give me a short introduction to large language model."
messages = [{"role": "system", "content": "You are a helpful assistant."},{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(messages,tokenize=False,add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(device)generated_ids = model.generate(model_inputs.input_ids,max_new_tokens=512
)
generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

使用官方文档以后attention_mask,pad_token_id报错,参考此篇文章attention_mask,pad_token_id报错,修改后的代码如下

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # the device to load the model onto
model_name_or_path = "lora微调后的模型地址"model = AutoModelForCausalLM.from_pretrained(model_name_or_path,torch_dtype="auto",device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)prompt = "xxx"messages = [{"role": "system", "content": "xxx"},{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(messages,tokenize=False,add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(device)
input_ids = tokenizer.encode(text, return_tensors="pt")
attention_mask = torch.ones(input_ids.shape, dtype=torch.long, device=device)generated_ids = model.generate(model_inputs.input_ids,attention_mask=attention_mask,max_new_tokens=512,pad_token_id=tokenizer.eos_token_id,
)
generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]print(response)

结束语

浅浅记录一下从0跑通+微调+推理 Qwen2.5-1.5B大模型的全程

http://www.dtcms.com/a/446131.html

相关文章:

  • 搭建网站空间无印良品vi设计分析
  • 做pc端网站资讯seo诊断工具有哪些
  • 高层次综合基础-vivado hls第三章
  • 网站建设单位不给数据库苏州网络公司工作室
  • windows部署网站phpwordpress教程网页修改
  • 前端GIS篇——WebGIS、WebGL、Java后端篇
  • 网站开发语言分析网站制作想法
  • 做抽奖网站合法吗网站底部备案代码
  • 基于SGLang的推理服务业务实战部署方案(直接可用)
  • 秦皇岛seo网站推广吉林省吉林市是几线城市
  • [ Spring 框架 ] 数据访问和事务管理
  • 云南建设注册考试中心网站appwordpress域名修改数据库
  • Coze源码分析-资源库-编辑知识库-后端源码-IDL/API层
  • 机器学习周报十六
  • 怎么免费制作企业网站找人做个网站大概多少钱
  • 凡科建站自助建站平台定制手机壳的网站
  • 实战 | 使用 Chrome 开发者工具修改网页源码跳过前端校验
  • 汕头网站时优化php 网站版面素材
  • 生活小记呀
  • 身份治理技术的演进之路:从手动管理到智能自动化
  • 嵌入式第六十六天(I2C子系统架构)
  • 长春网络建站益阳做网站
  • 在线网站备案网页设计师培训费用图片大全
  • stp root primary 概念及题目
  • Photoshop - Photoshop 工具栏(4)套索工具
  • 公司网站建设会计你分录苏州网站建设
  • 关于重新运行后台程序nohup python3的办法(一)
  • ICT 数字测试原理 6 - -VCL 测试结构
  • 第七章:桥接模式 - 抽象与实现的桥梁大师
  • 短视频推荐的底层逻辑:大数据如何 “读懂” 你的每一次滑动