当前位置: 首页 > news >正文

LLaMA-Factory 微调可配置的模型基本参数

LLaMA-Factory 微调可配置的模型基本参数

flyfish

基本参数

一、模型加载与路径配置

参数名类型描述默认值
model_name_or_pathOptional[str]模型路径(本地路径或 Huggingface/ModelScope 路径)。None
adapter_name_or_pathOptional[str]适配器路径(本地路径或 Huggingface/ModelScope 路径),多路径用逗号分隔。None
adapter_folderOptional[str]包含适配器权重的文件夹路径。None
cache_dirOptional[str]保存从 Hugging Face 或 ModelScope 下载的模型的本地路径。None
model_revisionstr所使用的特定模型版本。main
hf_hub_tokenOptional[str]用于登录 HuggingFace 的验证 token。None
ms_hub_tokenOptional[str]用于登录 ModelScope Hub 的验证 token。None
om_hub_tokenOptional[str]用于登录 Modelers Hub 的验证 token。None

二、分词器与词表配置

参数名类型描述默认值
use_fast_tokenizerbool是否使用 fast_tokenizer。True
resize_vocabbool是否调整词表和嵌入层的大小。False
split_special_tokensbool是否在分词时将 special token 分割。False
new_special_tokensOptional[str]要添加到 tokenizer 中的 special token,多个用逗号分隔。None

三、内存优化与加载策略

参数名类型描述默认值
low_cpu_mem_usagebool是否使用节省内存的模型加载方式。True
device_mapOptional[Union[str, Dict[str, Any]]]模型分配的设备映射(自动管理,无需手动指定)。None
offload_folderstr卸载模型权重的路径。offload
disable_gradient_checkpointingbool是否禁用梯度检查点。False
use_reentrant_gcbool是否启用可重入梯度检查点。True

四、性能优化与加速技术

参数名类型描述默认值
flash_attnLiteral["auto", "disabled", "sdpa", "fa2"]是否启用 FlashAttention 加速训练和推理。auto
shift_attnbool是否启用 Shift Short Attention (S²-Attn)。False
mixture_of_depthsOptional[Literal["convert", "load"]]模型转换为 Mixture of Depths (MoD) 模式的方式。None
use_unslothbool是否使用 unsloth 优化 LoRA 微调。False
use_unsloth_gcbool是否使用 unsloth 的梯度检查点。False
enable_liger_kernelbool是否启用 liger 内核以加速训练。False
moe_aux_loss_coefOptional[float]MoE 架构中 aux_loss 系数(控制专家负载均衡)。None

五、数值精度与计算配置

参数名类型描述默认值
upcast_layernormbool是否将 layernorm 层权重精度提高至 fp32。False
upcast_lmhead_outputbool是否将 lm_head 输出精度提高至 fp32。False
compute_dtypeOptional[torch.dtype]用于计算模型输出的数据类型(自动管理,无需手动指定)。None
infer_dtypeLiteral["auto", "float16", "bfloat16", "float32"]推理时的模型数据类型。auto

六、推理与生成配置

参数名类型描述默认值
infer_backendLiteral["huggingface", "vllm"]推理时使用的后端引擎。huggingface
use_cachebool是否在生成时使用 KV 缓存。True
model_max_lengthOptional[int]模型的最大输入长度(自动管理,无需手动指定)。None
block_diag_attnbool是否使用块对角注意力(自动管理,无需手动指定)。False

七、安全与调试配置

参数名类型描述默认值
trust_remote_codebool是否信任来自 Hub 上数据集/模型的代码执行。False
print_param_statusbool是否打印模型参数的状态。False
train_from_scratchbool是否随机初始化模型权重(从头训练)。False

八、位置编码与注意力机制

参数名类型描述默认值
rope_scalingOptional[Literal["linear", "dynamic", "yarn", "llama3"]]RoPE 缩放策略。None
http://www.dtcms.com/a/291209.html

相关文章:

  • jcmd用法总结
  • 完整的 SquareStudio 注册登录功能实现方案:已经烧录到开发板正常使用
  • 83、形式化方法
  • Unity VR多人手术系统恢复3:Agora语音通讯系统问题解决全记录
  • 【CAN】01.CAN简介硬件电路
  • 视网膜分支静脉阻塞(BRVO)及抗VEGF治疗的多模态影像学研究
  • 同步与异步?从一个卡顿的Java服务说起
  • 文字检测到文字识别
  • 如何用 Z.ai 生成PPT,一句话生成整套演示文档
  • 自反馈机制(Self-Feedback)在大模型中的原理、演进与应用
  • 【PTA数据结构 | C语言版】哥尼斯堡的“七桥问题”
  • 【ROS1】07-话题通信中使用自定义msg
  • (9)机器学习小白入门 YOLOv:YOLOv8-cls 技术解析与代码实现
  • 选择排序 冒泡排序
  • LinkedList与链表(单向)(Java实现)
  • android studio 远程库编译报错无法访问远程库如何解决
  • 算法提升之字符串回文问题-(马拉车算法)
  • Java基础教程(011):面向对象中的构造方法
  • 模拟高负载测试脚本
  • Flink框架:keyBy实现按键逻辑分区
  • 250kHz采样率下多信号参数设置
  • mysql-5.7 Linux安装教程
  • 无人机报警器技术要点与捕捉方式
  • Anaconda 路径精简后暴露 python 及工具到环境变量的配置记录 [二]
  • Linux学习之Linux系统权限
  • scratch音乐会开幕倒计时 2025年6月中国电子学会图形化编程 少儿编程 scratch编程等级考试一级真题和答案解析
  • Git核心功能简要学习
  • 知识 IP 的突围:从 “靠感觉” 到 “系统 + AI” 的变现跃迁
  • 网络编程及原理(八)网络层 IP 协议
  • 关于校准 ARM 开发板时间的步骤和常见问题:我应该是RTC电池没电了才导致我设置了重启开发板又变回去2025年的时间