当前位置: 首页 > news >正文

ms-swift框架微调qwen3-0.6b模型

首先是安装相关的库:swanlabswiftmodelscope等。

下载模型:

from modelscope import snapshot_download
local_dir = "./my_qwen_model"model_dir = snapshot_download('Qwen/Qwen3-0.6B',local_dir=local_dir)

将模型下载到本地./my_qwen_model目录内。

使用alpaca格式的数据集,例如huanhuan.json

CUDA_VISIBLE_DEVICES=0swift sft \--model ./my_qwen_model \--model_type qwen3 \--dataset ./huanhuan.json \--train_type lora \--torch_dtype bfloat16 \--num_train_epochs 2 \--per_device_train_batch_size 4 \--per_device_eval_batch_size 1 \--learning_rate 1e-5 \--lora_rank 8 \--lora_alpha 32 \--target_modules all-linear \--gradient_accumulation_steps 2 \--eval_steps 200 \--save_steps 200 \--save_total_limit 2 \--logging_steps 5 \--max_length 4096 \--output_dir output \--warmup_ratio 0.05 \--dataloader_num_workers 4 \--load_from_cache_file false \--loss_scale ignore_empty_think \--save_strategy steps \--model_author glm \--model_name qwen3_0.6b \--report_to swanlab \--swanlab_project swift-learn

各参数解释如下:

CUDA_VISIBLE_DEVICES=0swift sft \--model ./my_qwen_model \                   # 指定基础模型的本地路径--model_type qwen3 \                        # 指定模型的类型,用于加载正确的模板和配置--dataset ./huanhuan.json \                 # 指定训练数据集的 JSON 文件路径--train_type lora \                         # 指定训练方法为 LoRA,一种参数高效微调技术--torch_dtype bfloat16 \                    # 指定模型训练时使用的数据类型,节省显存并加速计算--num_train_epochs 2 \                      # 指定训练的总轮数,模型将完整地看两遍数据--per_device_train_batch_size 4 \           # 指定每个 GPU 上的训练批大小--per_device_eval_batch_size 1 \            # 指定每个 GPU 上的评估批大小--learning_rate 1e-5 \                      # 指定优化器的学习率--lora_rank 8 \                             # 指定 LoRA 适配器的秩,控制其复杂度和参数量--lora_alpha 32 \                           # 指定 LoRA 的缩放因子,控制其对模型的影响强度--target_modules all-linear \               # 指定将 LoRA 应用到所有线性层--gradient_accumulation_steps 2 \           # 指定梯度累积步数,用于模拟更大的批大小--eval_steps 200 \                          # 指定每训练多少步进行一次评估--save_steps 200 \                          # 指定每训练多少步保存一次模型检查点--save_total_limit 2 \                      # 指定最多保留的检查点数量,以节省磁盘空间--logging_steps 5 \                         # 指定每训练多少步记录一次日志--max_length 4096 \                         # 指定输入序列的最大长度--output_dir output \                       # 指定输出目录,用于保存日志、模型等--warmup_ratio 0.05 \                       # 指定学习率预热的比例,用于稳定训练初期--dataloader_num_workers 4 \                # 指定数据加载器的工作进程数,用于加速数据读取--load_from_cache_file false \              # 设置为 false,每次都重新处理数据,便于调试--loss_scale ignore_empty_think \           # 自定义的损失缩放策略--save_strategy steps \                     # 指定保存策略为按步数保存--model_author glm \                        # 设置模型作者的元信息--model_name qwen3_0.6b \                   # 设置模型名称的元信息--report_to swanlab \                       # 指定日志上报的可视化工具--swanlab_project swift-learn               # 指定在 SwanLab 中的项目名称

进行推理:

CUDA_VISIBLE_DEVICES=0 \
swift infer \--adapters ./output/v2-20251101-154047/checkpoint-934 \--stream true \--temperature 0 \--max_new_tokens 2048

进行合并:

swift export \--adapters ./output/v2-20251101-154047/checkpoint-934 \--merge_lora true```进行合并后的推理:
```shell
swift infer \--model_type qwen3 \--model ./output/v2-20251101-154047/checkpoint-934-merged

swanlab实验可视化
在这里插入图片描述

http://www.dtcms.com/a/557793.html

相关文章:

  • 企业网站架构德阳建设局网站
  • 电子电力技术的准谐振电路和LLC电路相关习题学习记录分享
  • 陕西省档案馆建设网站淘宝客建网站怎么做
  • 2025年江西省职业院校技能大赛高职组“区块链技术应用”任务书(4卷)
  • 大型电商网站开发成本wordpress远程媒体库
  • 聚云测网站怎么做的wordpress博客订单系统
  • Ax=b稀疏线性方程组的解法介绍
  • 深入理解跳表:数据结构解析与应用
  • 买了个域名 如何建网站移动营销型网站建设
  • Windows电脑数据迁移实战:如何无损迁移应用程序与系统设置
  • 专科医院网站建设管理类培训课程
  • 轮询中断 串口实训
  • IO接口介绍
  • 石家庄做物流的网站室内设计方案设计说明
  • rocketMQ-基本使用和原理简介
  • 2025出海品牌系统选型报告:破解业财一体化的隐形鸿沟
  • 自适应网站推广开发网站教程
  • ESP32 FreeRTOS任务与内存全指南
  • HeidiSQL导入与导出数据
  • 深圳龙华住房和建设局网站在线做gif图网站
  • 顺通建设集团有限公司 网站网站面包屑导航代码
  • springDI注入
  • Service层的使用 - Spring框架 - IOC
  • 多语言网站开发公司佛山国外网站开发
  • 感恩节火鸡大餐
  • ppt做书模板下载网站有哪些网站建设翻译
  • 【电子元器件·11】PN结;耗尽区;PN结的伏安特性曲线(重要)
  • 边界扫描测试原理 14 -- BSDL 8 用户提供的 VHDL 包
  • Rust所有权(下):引用、借用与切片
  • 2025年江西省职业院校技能大赛高职组“区块链技术应用”任务书(6卷)