当前位置: 首页 > news >正文

LoRA模型的可训练参数解析(61)

LoRA模型的可训练参数解析

    • LoRA模块解析
    • LoRA模型的可训练参数有多少
    • 好消息和坏消息

LoRA模块解析

get_peft_model()函数会将原始的 4 位量化线性层(Linear4bit)包装为其对应的 LoRA 版本(lora.Linear4bit)。原始层依然保留(以base_layer的形式存在),因为后续计算原始输出时需要用到它。在原始层旁边,我们能看到一些(希望大家)眼熟的层:

  • lora_A 和 lora_B:对应本课程第一部分中讨论过的 A 矩阵和 B 矩阵。注意,A 矩阵的输出特征数与 B 矩阵的输入特征数完全相同 —— 这一数值正是我们在配置中选择的秩(rank)值。
  • lora_embedding_A 和 lora_embedding_B:功能与上述 A、B 矩阵完全一致,但仅在被适配的层为nn.Embedding(嵌入层)时使用。
  • lora_dropout:本质上就是一个 dropout 层(用于防止过拟合)。
  • lora_magnitude_vector:仅在 LoRA 的变体 DoRA(Directional LoRA)中使用,本实践实验系列暂不涉及该内容。

LoRA模型的可训练参数有多少

你是否想知道此刻模型的可训练参数有多少?可以调用一个非常便捷的方法来查看:既能了解可训练参数的具体数量,也能知晓其占模型总参数的百分比。

peft_model.print_trainable_parame
http://www.dtcms.com/a/355728.html

相关文章:

  • 杂记 08
  • CnSTD+CnOCR的联合使用
  • vsgCs显示谷歌全球倾斜模型-节点
  • 9 从 “内存怎么存” 到 “指针怎么用”:计算机内存编址机制 + C 语言指针核心 + memory 模拟实现
  • “AI+制造”政策下,户外智能清洁如何跑出加速度?
  • 20250828-学习JumpServer开源堡垒机使用:统一访问入口 + 安全管控 + 操作审计
  • 复杂BI报表SQL
  • 集成电路学习:什么是TensorFlow
  • MCP Factory——专业 MCP Server 开发平台,正式发布,免费下载!
  • 一站式爬虫MCP服务器助力AI市场分析师
  • 微服务相关面试题
  • ComfyUI ControlNet 保姆级教程:开箱即用的示例工作流,精准控制AI图像生成
  • 记录git报错ssh: connect to host github.com port 22: Connection timed out,已解决
  • P3373 【模板】线段树 2
  • l六步完成麒麟操作系统挂载本地REPO源
  • 软考 系统架构设计师系列知识点之杂项集萃(134)
  • IPv6过渡技术IPv6 over IPv4
  • 【数据结构与算法】LeetCode 20.有效的括号
  • 跨网络通信:路由器如何实现全球互联
  • QT控件:【控件概述】【QWidget核心体系】【按钮类控件】【显示类控件】
  • 实战回忆录从webshell开始突破边界
  • 3D血管图像处理与连接系统
  • Odoo AI 智能查询系统
  • 【LeetCode每日一题】160.相交链表 206. 反转链表
  • AI智能供应链深度解析:从库存优化到风险预警,解锁企业降本提效新路径
  • 基于deepseek的Spring boot入门
  • Zabbix监控Dell R系列硬件(PowerEdge R740等)
  • git 小白入门教学
  • TypeScript:symbol类型
  • vscode自动格式化,取消保存时自动格式化也不好使