ms-swift 微调 internlm3-8b-instruct(论文分类任务)
参考链接
Docs
Docs
Docs
评测 — swift 3.6.0.dev0 文档
算力资源
这里我用的是书生的训练营给的算力资源,可以报名申请闯关提高算力,不过第五期的训练营从5月27日就已经开始了
环境
CUDA:12.2
显存:40GB(50% A100)
Python 包管理:conda
LLM:internlm3-8b-instruct
微调框架:ms-swift
训练方式:(预训练 + SFT)Lora
目标
对 InternLM 系列模型 进行微调,使其能够完成论文分类任务,然后进行打榜
Docs
安装 ms-swift
1)创建 conda 环境
# 创建 conda 虚拟环境,环境名称为 swift,python 的版本为 3.10
conda create -n swift python=3.10
2)切换 环境
conda activate swift
3)安装 ms-swift
# ms-swift 全能力安装
pip install 'ms-swift[all]' -U
训练集
训练集:实战营arxiv论文分类数据集
下载
1)安装 ModelScope
pip install modelscope
2)创建文件夹
mkdir -p /root/datasets/train
2)下载训练集
# 完整下载整个训练集,并下载到 /root/datasets/train 目录下
modelscope download --dataset JimmyMa99/smartflow-arxiv-dataset --local_dir /root/datasets/train
预训练
目标:让模型学习识别论文的基本结构、元数据和内容特征
1)新建训练脚本
# 创建 config 文件夹
mkdir config
# 脚本
vim config/internlm3-8b-pretrain.sh
internlm3-8b-instruct.sh:
可以自己定义一些参数,从第5行到第13行
swift 一些参数说明可参考:https://zhuanlan.zhihu.com/p/1920127302924235042
#!/bin/bash############ 可自定义
# 指定基础模型,可以是模型路径
model="Shanghai_AI_Laboratory/internlm3-8b-instruct"
# 训练集路径(预训练 训练集)
data_path="/root/datasets/train/swift_formatted_pretrain_data.jsonl"
# 模型输出路径
output_dir="/root/swift_output/internlm3-8b-lora"
# 模型作者
model_author="fei"
# 训练后的模型名称
model_name="InternLM3-8B-Lora"# 创建日志目录
LOG_DIR="logs"
mkdir -p $LOG_DIR # 获取当前时间戳,用于生成唯一的日志文件名
TIMESTAMP=$(date +"%Y%m%d_%H%M%S")
LOG_FILE="$LOG_DIR/internlm3-8b_lora_sft_${TIMESTAMP}.log" # 设置CUDA环境变量
export NPROC_PER_NODE=1
export OMP_NUM_THREADS=1
export CUDA_VISIBLE_DEVICES=0
export MASTER_PORT=$((10000 + RANDOM % 50000))# 使用nohup命令在后台运行训练任务,即使终端关闭也能继续运行
nohup swift sft \--model $model \--train_type lora \--dataset $data_path \--torch_dtype bfloat16 \--num_train_epochs 2 \--per_device_train_batch_size 4 \--learning_rate 5e-5 \--warmup_ratio 0.1 \--split_dataset_ratio 0 \--lora_rank 8 \--lora_alpha 32 \--use_chat_template false \--target_modules all-linear \--gradient_accumulation_steps 2 \--save_steps 2000 \--save_total_limit 5 \--gradient_checkpointing_kwargs '{"use_reentrant": false}' \--logging_steps 5 \--max_length 2048 \--output_dir $output_dir \--dataloader_num_workers 256 \--model_author $model_author \--model_name $model_name \> "$LOG_FILE" 2>&1 & # 打印进程ID和日志文件位置,便于用户跟踪
echo "Training started with PID $!"
echo "Log file: $LOG_FILE" # 提示用户如何实时查看日志
echo "To view logs in real-time, use:"
echo "tail -f $LOG_FILE"
2)执行预训练脚本
bash config/internlm3-8b-pretrain.sh
3)查看日志
# 要复制脚本执行后的,最后一条命令
tail -f logs/internlm3-8b_lora_sft_20250622_140355.log
4)训练结束
合并权重
将模型权重合并
# 复制日志中 last_model_checkpoint 对应的路径
swift export --adapters /root/swift_output/internlm3-8b-lora/v2-20250622-142204/checkpoint-144 --merge_lora true
SFT
目标:让模型学会准确分类,输出简洁答案
1)新建训练脚本
# 脚本
vim config/internlm3-8b-sft.sh
internlm3-8b-sft.sh:
可以自己定义一些参数,从第5行到第15行
swift 一些参数说明可参考:https://zhuanlan.zhihu.com/p/1920127302924235042
#!/bin/bash############ 可自定义
# 指定基础模型路径,使用上面预训练合并后的路径
model="/root/swift_output/internlm3-8b-lora/v2-20250622-142204/checkpoint-144-merged"
# 训练集路径(sft 训练集)
data_path="/root/datasets/train/swift_formatted_sft_train_data.jsonl"
# 模型输出路径
output_dir="/root/swift_output/internlm3-8b-lora"
# 模型作者
model_author="fei"
# 训练后的模型名称
model_name="InternLM3-8B-Lora"
# swanlab的project名称
swanlab_project="InternLM3-8B-paper-classify-Lora"# 创建日志目录
LOG_DIR="logs"
# 创建日志目录,-p参数确保即使目录已存在也不会报错
mkdir -p $LOG_DIR# 获取当前时间戳
TIMESTAMP=$(date +"%Y%m%d_%H%M%S")
# 获取当前时间并格式化为年月日_时分秒格式
LOG_FILE="$LOG_DIR/internlm3-8b_lora_sft_${TIMESTAMP}.log"
# 组合日志文件路径,使用时间戳确保文件名唯一# 设置CUDA设备
export NPROC_PER_NODE=1
# 设置每个节点的进程数为1
export OMP_NUM_THREADS=1
# 设置OpenMP线程数为1,限制并行线程数
export CUDA_VISIBLE_DEVICES=0
# 指定使用的GPU设备为0号设备# 使用nohup命令在后台运行swift sft命令,即使终端关闭也能继续运行
nohup swift sft \--model $model \--train_type lora \--dataset $data_path \--torch_dtype bfloat16 \--num_train_epochs 2 \--per_device_train_batch_size 8 \--learning_rate 1e-4 \--warmup_ratio 0.1 \--report_to swanlab \--swanlab_project $swanlab_project \--split_dataset_ratio 0 \--lora_rank 8 \--lora_alpha 32 \--target_modules all-linear \--gradient_accumulation_steps 2 \--save_steps 2000 \--save_total_limit 5 \--gradient_checkpointing_kwargs '{"use_reentrant": false}' \--logging_steps 5 \--max_length 2048 \--output_dir $output_dir \--dataloader_num_workers 256 \--model_author $model_author \--model_name $model_name \> "$LOG_FILE" 2>&1 &# 打印进程ID和日志文件位置
echo "Training started with PID $!"
# 显示训练进程的PID($!代表最近一个后台进程的PID)
echo "Log file: $LOG_FILE"
# 显示日志文件的路径# 显示查看日志的命令
echo "To view logs in real-time, use:"
echo "tail -f $LOG_FILE"
2)安装 swanlab
SwanLab 是一款开源、轻量的 AI 模型训练跟踪与可视化工具,提供了一个跟踪、记录、比较、和协作实验的平台。
pip install swanlab
3)登录 swanlab
3.1)前往 swanlab 注册
网址:https://swanlab.cn/
3.2)获取 API Key
3.2)服务器登录
swanlab login
# 然后粘贴 API key
回车
4)执行 sft 训练脚本
bash config/internlm3-8b-sft.sh
5)查看日志
# 要复制脚本执行后的,最后一条命令
tail -f logs/internlm3-8b_lora_sft_20250622_152058.log
6)训练结束
最高用到 37G 显存
7)通过 swanlab,了解到相关的数据【可选】
网址:https://swanlab.cn/space/~
合并权重
# 复制日志中 last_model_checkpoint 对应的路径
swift export --adapters /root/swift_output/internlm3-8b-lora/v5-20250622-155801/checkpoint-62 --merge_lora true
评测
准备
将评测数据集改名
# 添加 _val,是为了能让 swift 知道这个是评测数据
mv eval_oc_data.csv eval_oc_data_val.csv
注意:我下面不是用的这个评测集进行评测的,我把他移动到 /root/datasets/eval,并改名为 newformat_sft_test_data_val.csv
微调前
参考链接:评测 — swift 3.6.0.dev0 文档
--eval_dataset general_mcq:通用选择题数据集
"local_path": "/root/datasets/eval":这个是数据集所在的路径
"subset_list": ["newformat_sft_test_data"]:这个数据集名称的前缀,我这里的文件是 newformat_sft_test_data_val.csv
官方文档说明:
评测命令:
CUDA_VISIBLE_DEVICES=0 \
swift eval \--model Shanghai_AI_Laboratory/internlm3-8b-instruct \--eval_backend Native \--infer_backend pt \--eval_dataset general_mcq \--dataset_args '{"general_mcq": {"local_path": "/root/datasets/eval", "subset_list": ["newformat_sft_test_data"]}}'
微调后
/root/swift_output/internlm3-8b-lora/v5-20250622-155801/checkpoint-62-merged:是 sft 合并权重后的路径
评测命令:
CUDA_VISIBLE_DEVICES=0 \
swift eval \--model /root/swift_output/internlm3-8b-lora/v5-20250622-155801/checkpoint-62-merged \--eval_backend Native \--infer_backend pt \--eval_dataset general_mcq \--dataset_args '{"general_mcq": {"local_path": "/root/datasets/eval", "subset_list": ["newformat_sft_test_data"]}}'
上传到 魔搭社区(可跳)
网址:ModelScope 魔搭社区
1)创建模型
2)上传模型
token获取:ModelScope 魔搭社区
# feilieren/InternLM3-8B-paper-classify-Lora:为自己在魔搭社区创建的模型(个人名称/模型名称)
# /root/swift_output/internlm3-8b-lora/v5-20250622-155801/checkpoint-62-merged:合并权重后的模型参数路径
# YOUR-MODELSCOPE-TOKEN:要替换成自己的 魔搭社区token
modelscope upload feilieren/InternLM3-8B-paper-classify-Lora /root/swift_output/internlm3-8b-lora/v5-20250622-155801/checkpoint-62-merged --token YOUR-MODELSCOPE-TOKEN