当前位置: 首页 > wzjs >正文

常州网站建设企业今天最新消息

常州网站建设企业,今天最新消息,营销型网站建设 合肥,怎样做网站底部导航虽然ms-swift 3.x发布也有一段时间 官方文档也对使用上参数的变动做了一些说明 ReleaseNote 3.0 — swift 3.2.0.dev0 文档 但是这个说明基本上都是说 某些参数的命名 发生了变化 对于一些 参数命名没变但默认值/使用方式 的变化 暂时还没给出说明/统计文档 我这边基于工作…

虽然ms-swift 3.x发布也有一段时间 官方文档也对使用上参数的变动做了一些说明 

ReleaseNote 3.0 — swift 3.2.0.dev0 文档
但是这个说明基本上都是说 某些参数的命名 发生了变化 
对于一些 参数命名没变但默认值/使用方式 的变化 暂时还没给出说明/统计文档

我这边基于工作中遇到的一些坑,整理了部分,希望大家在使用的时候留意。
注意,在这个文档里官方已给出的参数差异我在这不做赘述分析,只展示我个人发现的一些暗坑,时间关系没有做精准校对,如果发现写错or官方更新文档 还请评论区提醒我

一、MLLM中sft full时默认可训练参数的变化

在swift2.x版本中,对MLLM进行SFT full训练的时候,默认是全参数训练的,见

但是在3.x中很坑的一点是默认只训练LLM,冻结vision encoder和adapter。。。

所以在swift 3.x用full sft训练MLLM的时候,切记把freeze_vit和freeze_aligner参数设置为False

二、梯度累加gradient_accumulation_steps


这个参数影响了total_batch_size或者说模型训练花的steps

在2.x中,默认为一个公式计算方法,以8卡为例,这个数值默认为2,也就是说total_batch_size会翻倍

然而在3.x中,默认为1

所以就会导致如果非16卡训练,2.x中和3.x中即使对齐了batch_size,最终的训练step也会有出入。

三、推理的时候--model和--adapters的区别

官方总文档里应该是有写这俩参数的区分,但是因为踩过坑,我在这里再注明一下
当全参数(sft full)训练的时候,推理infer的时候用--model xxx/path
当lora训练的时候,推理用--adapters xxx/path

http://www.dtcms.com/wzjs/435949.html

相关文章:

  • 程家桥街道网站建设网络营销专业学什么
  • 网站开发什么技术经典软文案例
  • 平台网站开发价格怎么注册一个自己的网址
  • 删除的网站做404硬件工程师培训机构哪家好
  • 网站建设官网型好呢还是商城型seo优化一般多少钱
  • 陕西广告公司网站建设腾讯广告推广平台
  • 国际军事新闻视频播放seo流量是什么
  • 广州seo站内优化今日国际新闻最新消息事件
  • 用vs2010做网站视频教程学新媒体运营最好的培训学校
  • 杭州手机建站模板让百度收录自己的网站
  • 怎样制作时时彩网站做 裙 o网店运营实训报告
  • 莆田网站建设技术托管企业公司网站建设
  • 北京网站建设 seo公司贺州seo
  • 定制家具网站源代码seo网络推广
  • 怎么查网站是哪个建站公司做的免费的域名和网站
  • 重庆网站建设jccit以网红引流促业态提升
  • 手机站点cn优化大师怎么强力卸载
  • 做网站的用什么电脑好友情链接交换平台
  • 顾氏网站建设有限公司怎么样自己做网站需要多少钱
  • 网站系统什么是网络营销的核心
  • 做网站要用什么软件企业网站的推广方式和手段有哪些
  • 用什么wordpress主题南京seo网站优化推广
  • 网站的导航栏怎么做的网络营销的实现方式
  • 学校网站怎么做的好坏ios aso优化工具
  • 长春电商网站建设费用seo是指搜索引擎营销
  • 桂林网站建设公司网络营销讲师
  • 滑县做网站公司加快百度收录的方法
  • 兰溪做网站哪家好淘宝seo是什么意思
  • 企业网站开发需要开封seo推广
  • 大学生ppt自我介绍幻灯片班级优化大师免费下载