当前位置：首页 > news >正文

Qwen2.5-7B-Instruct进行自我认知微调

news 2025/10/15 13:11:21

使用镜像：

modelscope/ms-swift/swift_lora_qwen2:v1

数据集和模型下载：

数据集内容：

启动命令：
CUDA_VISIBLE_DEVICES=0 \
swift sft \
--model Qwen/Qwen2.5-7B-Instruct \
--train_type lora \
--dataset 'AI-ModelScope/alpaca-gpt4-data-zh#500' \
'AI-ModelScope/alpaca-gpt4-data-en#500' \
'swift/self-cognition#500' \
--torch_dtype bfloat16 \
--num_train_epochs 1 \
--per_device_train_batch_size 1 \
--per_device_eval_batch_size 1 \
--learning_rate 1e-4 \
--lora_rank 8 \
--lora_alpha 32 \
--target_modules all-linear \
--gr

http://www.dtcms.com/a/58421.html

相关文章：

HTTP 黑科技

为什么会有结构体？

《几何原本》命题I.25

PCIE接口

spring 和JVM之间关系

Go学习笔记

【RAG】检索后排序提高回答精度

初识Linux

一周学会Flask3 Python Web开发-SQLAlchemy定义数据库模型

【Linux篇】调试器-gdb/cgdb使用

Redis- 切片集群

Linux驱动学习之平台总线设备树驱动模型

vue3 使用sass变量

基于STC89C52的温度检测系统(DS18B20)

如何使用Webpack打包React项目？

idea启动项目报端口被占用

leetcode hot100 图论

DeepSeek进阶应用（一）：结合Mermaid绘图（流程图、时序图、类图、状态图、甘特图、饼图）

Python爬虫获取淘宝快递费接口的详细指南

如何高效利用Spring中的@Cacheable注解？

STC51 中断允许寄存器 IE

黑马测试python学习

供应链重构：制造业如何借助数字化提升响应速度？

基于Python的电商销售数据分析与可视化系统实

【技术方案设计】H5埋点方案设计以及实现(入门版)

基于PyTorch的深度学习4——使用numpy实现机器学习vs使用Tensor及Antograd实现机器学习

发现U9查询设计上的一个逻辑

蓝桥杯[每日两题] 真题：好数神奇闹钟 (java版)

每日一题----------常用类

鸿蒙开发，hap hsp har 区别及选择