当前位置: 首页 > news >正文

【大模型问题】ms-swift微调时,显存持续增长原因分析与解决方案

问题原因分析

  1. 缺少梯度检查点(Gradient Checkpointing)

    • 未启用梯度检查点会导致完整的前向传播激活值保存在显存中
    • 这是显存增长的主要因素
  2. 未使用混合精度训练

    • 缺少 --dtype 参数,默认使用 FP32 训练
    • FP32 比 FP16/BF16 多占用一倍显存
  3. LoRA 目标模块设置问题

    • --target_modules all-linear 包含过多模块
    • VL 模型的视觉编码器部分有大量线性层
  4. 未限制最大样本长度

    • 缺少 --max_length 参数
    • 长文本样本会导致显存占用不稳定
  5. 缺少梯度累积控制

    • 未设置梯度累积步数
    • 每个 batch 都立即更新,效率低且显存波动大
  6. 未冻结视觉编码器参数

    • 虽然设置了 --freeze_vit true&#x

相关文章:

  • 基于php做的网站下载百度客户端电脑版下载
  • app和微网站的区别是什么sem搜索
  • 免费1级做爰片观看网站在线视频公众号推广费用一般多少
  • 自己做的网站如何在网络上展示精准营销名词解释
  • 专业做视频的网站有哪些内容业务推广公司
  • 网站建设维护公司baike seotl
  • AIoT时代指纹模块的三大颠覆性进化
  • 论文阅读:2025 arxiv Qwen3 Technical Report
  • ros(一)使用消息传递图像+launch启动文件
  • Linux平台Oracle开机自启动设置
  • 【innovus基础】- 对某根线单独route
  • 基于深度学习的双色球智能预测系统:从原理到实现
  • Java并发编程中高效缓存设计的哲学
  • vscode 插件
  • AngularJS 待办事项 App
  • 【格与代数系统】示例
  • 关于 pdd:anti_content参数分析与逆向
  • leetcode83.删除排序链表中的重复元素
  • Java SE - 图书管理系统模拟实现
  • 数据标注师学习内容
  • leetcode82.删除排序链表中的重复元素II
  • 【格与代数系统】示例2
  • 【机器学习深度学习】偏置项(Bias)概念
  • 嵌入式开发环境搭建全流程(Win/Linux)
  • ubuntu使用 Conda 安装 pyseer详细教程
  • 292. Nim 游戏