当前位置: 首页 > news >正文

多模态基础模型训练笔记-第一篇InternVL-g

一、TL;DR

  1. 将之前所有训练过的大模型的过程都总结和回忆一下,遇到的坑别忘了

二、问题记录

还是注意镜像的选择,选择社区最火的镜像,然后下载好对应的数据,主要显卡的选择,这个时候4090已经带不动了,必须选择32G的V100或者40G的A100了:

2.1 train_head:

batchsize=32

这里其实是代码有点小迷惑点哈,你选择4卡4090其实是没问题的,他会选择平摊显存,但是单卡的话,它会将所有的现存都堆到第一张卡里面去,设计上可能有点问题,显卡占用情况如下所示:

具体的实现自己去看代码吧

2.2 train_lora:

使用lora的训练方法明显是不同的,训练参数量如下所示:

loss的数值如下所示:

基本上内存也已经吃满了:

将batchsize设为16,则显存占用如下所示:

相关文章:

  • HTTP 与 HTTPS:协议详解与对比
  • 蓝桥杯 Java B 组之简单动态规划(爬楼梯、斐波那契数列)
  • 本地通过隧道连接服务器的mysql
  • 1-10 github注册仓库
  • MySQL Workbench 8.0不支持非SSL连接
  • 喜报!博睿数据案例获经观传媒“2024年度数字转型创新案例”!
  • 信息量与信息熵
  • 计算机性能与网络体系结构探讨 —— 基于《计算机网络》谢希仁第八版
  • VMware vSphere数据中心虚拟化——搭建vCenter Server7.0数据中心集群
  • 大语言模型推理中的显存优化 有哪些
  • 可编程超表面任意旋转偏振方向并以线性和非线性方式操控相位
  • cpu、gpu查看
  • Ollama 安装命令
  • [C++]多态详解
  • DeepSeek 通过 API 对接第三方客户端 告别“服务器繁忙”
  • C++演示中介模式
  • 【设计模式】03-理解常见设计模式-行为型模式(专栏完结)
  • SpringBoot多数据源实践:基于场景的构建、实现和事务一体化研究
  • 第1825天 | 我的创作纪念日:缘起、成长经历、大方向
  • 使用动态规划解决 0/1 背包问题
  • 广药集团原董事长李楚源被“双开”:去年8月被查,曾多次发表争议言论
  • 上海市第二十届青少年科技节启动:为期半年,推出百余项活动
  • 80后女博士黄双燕拟提名为内蒙古盟市政府(行署)副职人选
  • 著名心血管病学专家李国庆教授逝世,享年63岁
  • 中期选举后第三势力成“莎拉弹劾案”关键,菲律宾权斗更趋复杂激烈
  • 全国省市县国土空间总体规划已基本批复完成,进入全面实施阶段