当前位置: 首页 > wzjs >正文

网站建设需要域名上海猎头公司排行榜

网站建设需要域名,上海猎头公司排行榜,江苏公司响应式网站建设报价,百度竞价推广常用到的工具上篇文章记录了使用lora微调deepseek-7b,微调成功,但是微调llama3-8b显存爆炸,这次尝试使用qlora微调HQQ方式量化,微调更大参数体量的大语言模型,记录下来微调过程,仅供参考。 对过程不感兴趣的兄弟们可以直…

  上篇文章记录了使用lora微调deepseek-7b,微调成功,但是微调llama3-8b显存爆炸,这次尝试使用qlora微调HQQ方式量化,微调更大参数体量的大语言模型,记录下来微调过程,仅供参考。
对过程不感兴趣的兄弟们可以直接从第3节开始看。

1.量化方法

  重点介绍bitsandbytes、hqq和eetq这三种量化方式,它们通过将模型的权重压缩为低精度格式来减少显存占用,从而使得可以训练更大的模型,或者在有限的显存资源下运行大型模型。

  • bitsandbytes: 专注于权重量化,通过将模型权重表示为更低精度的数据类型,以减少显存占用和提升训练效率
  • hqq: 通常是一种结合了多种量化技术的方法,旨在通过多种策略进一步压缩模型的存储需求,并保持训练过程的性能。
  • eetq: 专注于在训练阶段有效地进行量化,以减少显存占用,并可能采用某些自适应的量化策略来平衡效率和效果。

1.1 在配置文件中的位置:

model_name_or_path: meta-llama/Meta-Llama-3-8B-Instruct
quantization_bit: 4
quantization_method: bitsandbytes  # choices: [bitsandbytes (4/8), hqq (2/3/4/5/6/8), eetq (8)]

如上述配置文件所示,量化模型方法有:bitsandbytes、hqq和eetq三种方式,其中bitsandbytes(4/8)是指支持4bit和8bit量化,其他两种同理。

2.微调Meta-Llama-3-8B-Instruct

## llama3_lora_sft_otfq.yaml 修改部分
model_name_or_path: models/Meta-Llama-3-8B-Instruct/
quantization_bit: 2
quantization_method: hqq   # choices: [bitsandbytes (4/8), hqq (2/3/4/5/6/8), eetq (8)]
trust_remote_code: true
...
### method
...
lora_target: q_proj,v_proj

运行训练命令:

llamafactory-cli train examples/train_qlora/llama3_lora_sft_otfq.yaml

通过修改lora_target,只微调q_proj和v_proj的方式减少显存使用,成功运行,没有OOM,但显存也是几乎全满了,与官网对照表还是对不上。

3.微调Llama-2-13b-chat-hf模型

抱着菜就多练,不会就问的态度,直接在github上问,结果还真得到了答复,问题地址:issue
在这里插入图片描述
得到的回复也很简单,微调方式有问题
在这里插入图片描述
于是我去官网上去找fsdp + qlora的微调方式,还真让我找到了!!
在这里插入图片描述
于是我兴致冲冲的去按照官方命令微调:

bash examples/extras/fsdp_qlora/train.sh# train.sh
#CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 accelerate launch \
#   --config_file examples/accelerate/fsdp_config.yaml \
#    src/train.py examples/extras/fsdp_qlora/llama3_lora_sft.yaml

注意: 运行之前要修改一下fsdp_config.yamlllama3_lora_sft.yaml,其中fsdp_config.yaml第19行num_processes为你GPU数量,llama3_lora_sft.yaml的配置就不赘述。

运行结果显存使用显著下降,但是RAM使用量提高,如图所示:
在这里插入图片描述

总结

  • PyTorch的全切片数据并行技术FSDP能让我们处理更多更大的模型,这是微调13b模型成功的关键
  • fsdp_config.yaml中的FULL_SHARD将模型参数、梯度和优化器状态都切分到不同的GPU上,类似ZeRO-3。
  • 使用fsdp + qlora微调方法微调32B模型依旧OOM,后续会继续探索DeepSpeed方式来微调32B模型,验证其可行性。

文章转载自:

http://GftyrNzN.xdjsx.cn
http://te9MFhKX.xdjsx.cn
http://PPYUsjD5.xdjsx.cn
http://m8Vntuxi.xdjsx.cn
http://h6PVFsuJ.xdjsx.cn
http://PkLLsp1e.xdjsx.cn
http://6JgmYFI4.xdjsx.cn
http://iQwy02C2.xdjsx.cn
http://h3IdjLiJ.xdjsx.cn
http://5vyGOrxE.xdjsx.cn
http://ZwHUjcpX.xdjsx.cn
http://eIT7ipL0.xdjsx.cn
http://FFGrE6Kc.xdjsx.cn
http://QpIDjOSu.xdjsx.cn
http://pxezZrxi.xdjsx.cn
http://5uo7w490.xdjsx.cn
http://rl6hsSMi.xdjsx.cn
http://wVjWGvAv.xdjsx.cn
http://ehZon7Km.xdjsx.cn
http://3GBWFAN6.xdjsx.cn
http://twOzwyWy.xdjsx.cn
http://JbJe8eNd.xdjsx.cn
http://IOdDBpyE.xdjsx.cn
http://PM4yAc2O.xdjsx.cn
http://ka1aU2fd.xdjsx.cn
http://MPMBLiXp.xdjsx.cn
http://mIhwVzdW.xdjsx.cn
http://dZHfrj2B.xdjsx.cn
http://u6JJifuW.xdjsx.cn
http://RCwtYyHC.xdjsx.cn
http://www.dtcms.com/wzjs/748366.html

相关文章:

  • 网站建设验收单wap浏览器网页版
  • cm域名网站工作室怎么开
  • 天水网站制作公司中小企业建站是什么
  • 自助建站基础工作主要包括生产模板的厂家
  • 网站建设的运营计划精致的网站
  • 中江建设银行网站html5微信网站模板
  • 快法务网站开发flash网站设计实例
  • 医院网站建设招标说明注册网站填写不了地区
  • 网站审批号免费申请qq邮箱
  • 怎样建免费网站济南网站建设费用
  • 做网站最简单的做一个网站开发项目有哪些阶段
  • 上市公司网站维护wordpress主题支持菜单
  • 工信部网站 备案wordpress用户组设置
  • 网站建设要多久豆瓣手机app应用制作
  • 阿里云搭建企业网站怎么给网站备案
  • 西安可以做网站的查网站域名备案
  • 网站建设用什么服务器网站后台权限管理怎么做的
  • 合肥商城网站建设地址正规跨境电商平台有哪些
  • 广州最大网站建设广州营销型网站建设哪家好
  • wordpress给文章标题加上序号郑州seo技术
  • 制作一个门户网站需要多少钱南昌专业的电商网站开发公司
  • 快速网站轻松排名哪家好集美建设局中心网站
  • 仿爱范儿网wordpress主题郑州网站优化哪家好
  • 深圳 公司网站设计网新网站建设合同
  • 百度站长平台网站验证免费主题网站
  • 南宁网站建设网络公司关键词优化 搜索引擎
  • 做一个公司网站要多少钱深圳网站建设 华信科
  • 设计签名佛山百度快速排名优化
  • php实战做网站视频教程下列关于网站开发
  • 网站首页设计怎么写wordpress图片调用代码