当前位置: 首页 > wzjs >正文

济南公司建设网站自媒体视频剪辑培训班

济南公司建设网站,自媒体视频剪辑培训班,可以制作网站的软件,wordpress域名防封插件llama-factory笔记 RoPE 插值方法能提升长文本效果,如果没有特殊需求可以不使用(yarn最好,dynamic能动态变化,linear适合所有文本长度相近的情况且耗时最短) 加速方法:内置了flash_attention,…

llama-factory笔记

RoPE 插值方法能提升长文本效果,如果没有特殊需求可以不使用(yarn最好,dynamic能动态变化,linear适合所有文本长度相近的情况且耗时最短)

加速方法:内置了flash_attention,auto即为flash_attention,unsloth更适合显存低的情况;flash_attention和unsloth主要用在训练过程中,vllm主要用在推理过程中

Qlora框架下的具体量化方法:bitsandbytes直接内置比较方便,hqq在显存极低情况下更好用(显存占用下降更多),但需要安装

Qlora最低容忍度为4bit量化,损失在4-8%(8bit损失<1%),但3比特及以下都有两位数的损失

Qlora只是在微调过程中牺牲精度来量化微调,模型本身依然是全精度的

微调后量化使用的导出量校准数据集格式为[{“text”:“abc”},…]

导出设备选择auto,cpu可能报错;大模型文件导出可能报错,需要修改最大分块大小,即单个模型文件的最大大小(GB)。

evaluate主要比的是BLEU相似度,不是准确率

截断长度对显存占用影响较大,若数据集长度固定,可以降低到max_length甚至低于max_length(抛弃长文本数据)

记录

Device: AMD 7940HX + 4060(8GB) + 64GB RAM

1epoch Qwen2.5-1.5B-Instruct 模型本身2.87GB

batch_size=16 5408item 截断长度64 时长8h 显存5.6GB
QLoRA未启用 加速方式flashattn

batch_size=16 5408item 截断长度64 时长8.5h 显存3.7GB
QLoRA启用(4bit) 量化方法bitsandbytes 加速方式flashattn

batch_size=32 2704item 截断长度64 时长8h 显存5.6GB
QLoRA启用(4bit) 量化方法bitsandbytes 加速方式flashattn

batch_size=1 86530item 截断长度1024 时长43h 显存3.7GB
QLoRA未启用 加速方式flashattn

batch_size=4 21632item 截断长度256 时长11.5h 显存3.9GB
QLoRA未启用 加速方式flashattn

batch_size=4 21632item 截断长度256 时长15.5h 显存2.1GB
QLoRA启用(4bit) 量化方法bitsandbytes 加速方式flashattn

batch_size=4 21632item 截断长度256 时长32h 显存2.7GB
QLoRA启用(8bit) 量化方法bitsandbytes 加速方式flashattn

1epoch Qwen2.5-3B-Instruct 模型本身5.74GB

batch_size=1 86530item 截断长度256 时长58h 显存6.7GB
QLoRA未启用 量化方法bitsandbytes 加速方式flashattn

batch_size=1 86530item 截断长度256 时长84h 显存2.6GB
QLoRA启用(4bit) 量化方法bitsandbytes 加速方式flashattn

batch_size=4 21632item 截断长度256 时长27h 显存3.1GB
QLoRA启用(4bit) 量化方法bitsandbytes 加速方式flashattn

batch_size=16 5409item 截断长度256 时长16h 显存5.1GB
QLoRA启用(4bit) 量化方法bitsandbytes 加速方式flashattn

batch_size=32 2704item 截断长度256 时长16h 显存7.1GB
QLoRA启用(4bit) 量化方法bitsandbytes 加速方式flashattn

1epoch Qwen2.5-7B-Instruct 模型本身14.1GB

batch_size=1 86530item 截断长度256 时长700h 显存14.5GB
QLoRA未启用 量化方法bitsandbytes 加速方式flashattn

batch_size=1 86530item 截断长度256 时长174h 显存6.2GB
QLoRA启用(4bit) 量化方法bitsandbytes 加速方式flashattn

http://www.dtcms.com/wzjs/1390.html

相关文章:

  • 网站设计素材网站推荐泰安优化关键词排名哪家合适
  • c 网站开发如何每天10点执行任务seo公司官网
  • 做户外旅游网站推广网站制作
  • 常州微信网站建设咨询重庆网站制作
  • 做网站公司怎么开拓更多业务百度河南代理商
  • 军事的网站应如何建设曼联对利物浦新闻
  • 山东 基层政府网站集约化建设青岛seo网络优化公司
  • 网站着陆率域名注册信息怎么查
  • 个人微信支付宝做购物网站今日山东新闻头条
  • 营销型企业网站一般具有哪些功能sem和seo是什么职业
  • asp.net做毕业设计网站深圳seo网络推广
  • 家庭网络组建方案武汉seo招聘网
  • 网站做任务赚佣金沈阳cms模板建站
  • 央企做的好的网站武汉seo网站优化排名
  • 局域网内服务器做网站2023最近的新闻大事10条
  • 网站模板使用磁力最好用的搜索引擎
  • 北京网站制作一般多少钱西安疫情最新消息1小时内
  • 网站建设及推广服务的合同范本app制作一个需要多少钱
  • 给网站做解答是干嘛的制作app平台需要多少钱
  • 可以自己买个服务器做网站吗太原网站制作推广
  • 建设网站比较好公司吗线上推广渠道
  • 24小时学会网站建设seo教学
  • 比较好用的免费素材网长沙网站seo优化排名
  • 做灯箱到哪个网站找业务seo外链平台
  • 网络管理系统页面武汉百度搜索优化
  • 做网站加盟简述网站建设流程
  • 网站开发需要什么开发工具营销网站建设教学
  • 线上WordPress移到本地网络优化大师手机版
  • 制作软件的网站神马关键词快速排名软件
  • 网站建设遵循原则网络工具