当前位置: 首页 > news >正文

【大模型问题】ms-swift微调时,显存持续增长原因分析与解决方案

问题原因分析

  1. 缺少梯度检查点(Gradient Checkpointing)

    • 未启用梯度检查点会导致完整的前向传播激活值保存在显存中
    • 这是显存增长的主要因素
  2. 未使用混合精度训练

    • 缺少 --dtype 参数,默认使用 FP32 训练
    • FP32 比 FP16/BF16 多占用一倍显存
  3. LoRA 目标模块设置问题

    • --target_modules all-linear 包含过多模块
    • VL 模型的视觉编码器部分有大量线性层
  4. 未限制最大样本长度

    • 缺少 --max_length 参数
    • 长文本样本会导致显存占用不稳定
  5. 缺少梯度累积控制

    • 未设置梯度累积步数
    • 每个 batch 都立即更新,效率低且显存波动大
  6. 未冻结视觉编码器参数

    • 虽然设置了 --freeze_vit true&#x
http://www.dtcms.com/a/258106.html

相关文章:

  • AIoT时代指纹模块的三大颠覆性进化
  • 论文阅读:2025 arxiv Qwen3 Technical Report
  • ros(一)使用消息传递图像+launch启动文件
  • Linux平台Oracle开机自启动设置
  • 【innovus基础】- 对某根线单独route
  • 基于深度学习的双色球智能预测系统:从原理到实现
  • Java并发编程中高效缓存设计的哲学
  • vscode 插件
  • AngularJS 待办事项 App
  • 【格与代数系统】示例
  • 关于 pdd:anti_content参数分析与逆向
  • leetcode83.删除排序链表中的重复元素
  • Java SE - 图书管理系统模拟实现
  • 数据标注师学习内容
  • leetcode82.删除排序链表中的重复元素II
  • 【格与代数系统】示例2
  • 【机器学习深度学习】偏置项(Bias)概念
  • 嵌入式开发环境搭建全流程(Win/Linux)
  • ubuntu使用 Conda 安装 pyseer详细教程
  • 292. Nim 游戏
  • (nice!!!)(LeetCode 每日一题) 2081. k 镜像数字的和 (枚举)
  • 华为OD机试_2025 B卷_矩形相交的面积(Python,100分)(附详细解题思路)
  • Python csv 模块
  • 【无刷电机FOC进阶基础准备】【04 clark变换、park变换、等幅值变换】
  • 洛谷P1217 [USACO1.5] 回文质数 Prime Palindromes
  • 【AI News | 20250623】每日AI进展
  • 世界因你不同:李开复自传
  • ubuntu安装postman教程并中文汉化详细教程
  • 小白成长之路--nginx基础配置(一)
  • 基于java SSM的房屋租赁系统设计和实现