当前位置: 首页 > news >正文

Qwen2.5-7B-Instruct进行自我认知微调

使用镜像:

modelscope/ms-swift/swift_lora_qwen2:v1

数据集和模型下载:

数据集内容:

启动命令:
CUDA_VISIBLE_DEVICES=0 \
swift sft \
    --model Qwen/Qwen2.5-7B-Instruct \
    --train_type lora \
    --dataset 'AI-ModelScope/alpaca-gpt4-data-zh#500' \
              'AI-ModelScope/alpaca-gpt4-data-en#500' \
              'swift/self-cognition#500' \
    --torch_dtype bfloat16 \
    --num_train_epochs 1 \
    --per_device_train_batch_size 1 \
    --per_device_eval_batch_size 1 \
    --learning_rate 1e-4 \
    --lora_rank 8 \
    --lora_alpha 32 \
    --target_modules all-linear \
    --gr

相关文章:

  • HTTP 黑科技
  • 为什么会有结构体?
  • 《几何原本》命题I.25
  • PCIE接口
  • spring 和JVM之间关系
  • Go学习笔记
  • 【RAG】检索后排序 提高回答精度
  • 初识Linux
  • 一周学会Flask3 Python Web开发-SQLAlchemy定义数据库模型
  • 【Linux篇】调试器-gdb/cgdb使用
  • Redis- 切片集群
  • Linux驱动学习之平台总线设备树驱动模型
  • vue3 使用sass变量
  • 基于STC89C52的温度检测系统(DS18B20)
  • 如何使用Webpack打包React项目?
  • idea启动项目报端口被占用
  • leetcode hot100 图论
  • DeepSeek进阶应用(一):结合Mermaid绘图(流程图、时序图、类图、状态图、甘特图、饼图)
  • Python爬虫获取淘宝快递费接口的详细指南
  • 如何高效利用Spring中的@Cacheable注解?
  • 自定义网站建设/关键词热度
  • 如何在网站上做社交的链接/关键词在线听
  • 杭州手机网站/长春网站关键词推广
  • 江苏省政府门户网站建设的调查报告/百度知道客服电话
  • 网站建设流程图visio/百度认证官网
  • 龙岗网站建设服务/如何做好线上推广