当前位置：首页 > news >正文

ms-swift 微调 internlm3-8b-instruct（论文分类任务）

news 2025/10/10 1:18:19

参考链接

Docs

评测 — swift 3.6.0.dev0 文档

算力资源

这里我用的是书生的训练营给的算力资源，可以报名申请闯关提高算力，不过第五期的训练营从5月27日就已经开始了

环境

CUDA：12.2

显存：40GB（50% A100）

Python 包管理：conda

LLM：internlm3-8b-instruct

微调框架：ms-swift

训练方式：（预训练 + SFT）Lora

目标

对 InternLM 系列模型 进行微调，使其能够完成论文分类任务，然后进行打榜

Docs

安装 ms-swift

1）创建 conda 环境

# 创建 conda 虚拟环境，环境名称为 swift，python 的版本为 3.10
conda create -n swift python=3.10

2）切换环境

conda activate swift

3）安装 ms-swift

# ms-swift 全能力安装
pip install 'ms-swift[all]' -U

训练集

训练集：实战营arxiv论文分类数据集

下载

1）安装 ModelScope

pip install modelscope

2）创建文件夹

mkdir -p /root/datasets/train

2）下载训练集

# 完整下载整个训练集，并下载到 /root/datasets/train 目录下
modelscope download --dataset JimmyMa99/smartflow-arxiv-dataset --local_dir /root/datasets/train

预训练

目标：让模型学习识别论文的基本结构、元数据和内容特征

1）新建训练脚本

# 创建 config 文件夹
mkdir config
# 脚本
vim config/internlm3-8b-pretrain.sh

internlm3-8b-instruct.sh：

可以自己定义一些参数，从第5行到第13行

swift 一些参数说明可参考：https://zhuanlan.zhihu.com/p/1920127302924235042

#!/bin/bash############ 可自定义
# 指定基础模型，可以是模型路径
model="Shanghai_AI_Laboratory/internlm3-8b-instruct"
# 训练集路径（预训练 训练集）
data_path="/root/datasets/train/swift_formatted_pretrain_data.jsonl"
# 模型输出路径
output_dir="/root/swift_output/internlm3-8b-lora"
# 模型作者
model_author="fei"
# 训练后的模型名称
model_name="InternLM3-8B-Lora"# 创建日志目录
LOG_DIR="logs"
mkdir -p $LOG_DIR # 获取当前时间戳，用于生成唯一的日志文件名
TIMESTAMP=$(date +"%Y%m%d_%H%M%S")
LOG_FILE="$LOG_DIR/internlm3-8b_lora_sft_${TIMESTAMP}.log"  # 设置CUDA环境变量
export NPROC_PER_NODE=1
export OMP_NUM_THREADS=1
export CUDA_VISIBLE_DEVICES=0
export MASTER_PORT=$((10000 + RANDOM % 50000))# 使用nohup命令在后台运行训练任务，即使终端关闭也能继续运行
nohup swift sft \--model $model \--train_type lora \--dataset $data_path \--torch_dtype bfloat16 \--num_train_epochs 2 \--per_device_train_batch_size 4 \--learning_rate 5e-5 \--warmup_ratio 0.1 \--split_dataset_ratio 0 \--lora_rank 8 \--lora_alpha 32 \--use_chat_template false \--target_modules all-linear \--gradient_accumulation_steps 2 \--save_steps 2000 \--save_total_limit 5 \--gradient_checkpointing_kwargs '{"use_reentrant": false}' \--logging_steps 5 \--max_length 2048 \--output_dir $output_dir \--dataloader_num_workers 256 \--model_author $model_author \--model_name $model_name \> "$LOG_FILE" 2>&1 &  # 打印进程ID和日志文件位置，便于用户跟踪
echo "Training started with PID $!"  
echo "Log file: $LOG_FILE"  # 提示用户如何实时查看日志
echo "To view logs in real-time, use:"
echo "tail -f $LOG_FILE"

2）执行预训练脚本

bash config/internlm3-8b-pretrain.sh

3）查看日志

# 要复制脚本执行后的，最后一条命令
tail -f logs/internlm3-8b_lora_sft_20250622_140355.log

4）训练结束

合并权重

将模型权重合并

# 复制日志中 last_model_checkpoint 对应的路径
swift export --adapters /root/swift_output/internlm3-8b-lora/v2-20250622-142204/checkpoint-144 --merge_lora true

SFT

目标：让模型学会准确分类，输出简洁答案

1）新建训练脚本

# 脚本
vim config/internlm3-8b-sft.sh

internlm3-8b-sft.sh：

可以自己定义一些参数，从第5行到第15行

swift 一些参数说明可参考：https://zhuanlan.zhihu.com/p/1920127302924235042

#!/bin/bash############ 可自定义
# 指定基础模型路径，使用上面预训练合并后的路径
model="/root/swift_output/internlm3-8b-lora/v2-20250622-142204/checkpoint-144-merged"
# 训练集路径（sft 训练集）
data_path="/root/datasets/train/swift_formatted_sft_train_data.jsonl"
# 模型输出路径
output_dir="/root/swift_output/internlm3-8b-lora"
# 模型作者
model_author="fei"
# 训练后的模型名称
model_name="InternLM3-8B-Lora"
# swanlab的project名称
swanlab_project="InternLM3-8B-paper-classify-Lora"# 创建日志目录
LOG_DIR="logs"
# 创建日志目录，-p参数确保即使目录已存在也不会报错
mkdir -p $LOG_DIR# 获取当前时间戳
TIMESTAMP=$(date +"%Y%m%d_%H%M%S")
# 获取当前时间并格式化为年月日_时分秒格式
LOG_FILE="$LOG_DIR/internlm3-8b_lora_sft_${TIMESTAMP}.log"
# 组合日志文件路径，使用时间戳确保文件名唯一# 设置CUDA设备
export NPROC_PER_NODE=1
# 设置每个节点的进程数为1
export OMP_NUM_THREADS=1
# 设置OpenMP线程数为1，限制并行线程数
export CUDA_VISIBLE_DEVICES=0
# 指定使用的GPU设备为0号设备# 使用nohup命令在后台运行swift sft命令，即使终端关闭也能继续运行
nohup swift sft \--model $model \--train_type lora \--dataset $data_path \--torch_dtype bfloat16 \--num_train_epochs 2 \--per_device_train_batch_size 8 \--learning_rate 1e-4 \--warmup_ratio 0.1 \--report_to swanlab \--swanlab_project $swanlab_project \--split_dataset_ratio 0 \--lora_rank 8 \--lora_alpha 32 \--target_modules all-linear \--gradient_accumulation_steps 2 \--save_steps 2000 \--save_total_limit 5 \--gradient_checkpointing_kwargs '{"use_reentrant": false}' \--logging_steps 5 \--max_length 2048 \--output_dir $output_dir \--dataloader_num_workers 256 \--model_author $model_author \--model_name $model_name \> "$LOG_FILE" 2>&1 &# 打印进程ID和日志文件位置
echo "Training started with PID $!"
# 显示训练进程的PID（$!代表最近一个后台进程的PID）
echo "Log file: $LOG_FILE"
# 显示日志文件的路径# 显示查看日志的命令
echo "To view logs in real-time, use:"
echo "tail -f $LOG_FILE"

2）安装 swanlab

SwanLab 是一款开源、轻量的 AI 模型训练跟踪与可视化工具，提供了一个跟踪、记录、比较、和协作实验的平台。

pip install swanlab

3）登录 swanlab

3.1）前往 swanlab 注册

网址：https://swanlab.cn/

3.2）获取 API Key

3.2）服务器登录

swanlab login
# 然后粘贴 API key
回车

4）执行 sft 训练脚本

bash config/internlm3-8b-sft.sh

5）查看日志

# 要复制脚本执行后的，最后一条命令
tail -f logs/internlm3-8b_lora_sft_20250622_152058.log

6）训练结束

最高用到 37G 显存

7）通过 swanlab，了解到相关的数据【可选】

网址：https://swanlab.cn/space/~

合并权重

# 复制日志中 last_model_checkpoint 对应的路径
swift export --adapters /root/swift_output/internlm3-8b-lora/v5-20250622-155801/checkpoint-62 --merge_lora true

评测

准备

将评测数据集改名

# 添加 _val，是为了能让 swift 知道这个是评测数据
mv eval_oc_data.csv eval_oc_data_val.csv

注意：我下面不是用的这个评测集进行评测的，我把他移动到 /root/datasets/eval，并改名为 newformat_sft_test_data_val.csv

微调前

参考链接：评测 — swift 3.6.0.dev0 文档

--eval_dataset general_mcq：通用选择题数据集

"local_path": "/root/datasets/eval"：这个是数据集所在的路径

"subset_list": ["newformat_sft_test_data"]：这个数据集名称的前缀，我这里的文件是 newformat_sft_test_data_val.csv

官方文档说明：

评测命令：

CUDA_VISIBLE_DEVICES=0 \
swift eval \--model Shanghai_AI_Laboratory/internlm3-8b-instruct \--eval_backend Native \--infer_backend pt \--eval_dataset general_mcq \--dataset_args '{"general_mcq": {"local_path": "/root/datasets/eval", "subset_list": ["newformat_sft_test_data"]}}'

微调后

/root/swift_output/internlm3-8b-lora/v5-20250622-155801/checkpoint-62-merged：是 sft 合并权重后的路径

评测命令：

CUDA_VISIBLE_DEVICES=0 \
swift eval \--model /root/swift_output/internlm3-8b-lora/v5-20250622-155801/checkpoint-62-merged \--eval_backend Native \--infer_backend pt \--eval_dataset general_mcq \--dataset_args '{"general_mcq": {"local_path": "/root/datasets/eval", "subset_list": ["newformat_sft_test_data"]}}'

上传到魔搭社区（可跳）

网址：ModelScope 魔搭社区

1）创建模型

2）上传模型

token获取：ModelScope 魔搭社区

# feilieren/InternLM3-8B-paper-classify-Lora：为自己在魔搭社区创建的模型（个人名称/模型名称）
# /root/swift_output/internlm3-8b-lora/v5-20250622-155801/checkpoint-62-merged：合并权重后的模型参数路径
# YOUR-MODELSCOPE-TOKEN：要替换成自己的 魔搭社区token
modelscope upload feilieren/InternLM3-8B-paper-classify-Lora /root/swift_output/internlm3-8b-lora/v5-20250622-155801/checkpoint-62-merged --token YOUR-MODELSCOPE-TOKEN