当前位置: 首页 > news >正文

大模型4位量化 (46)

4位量化

4位量化的情况开始变得更有意思。我们可选的量化数据类型不止一种,而是两种:FP4和NF4,分别代表浮点和归一化浮点。这种新的数据类型(NF4)是在QLoRA(量化LoRA;我们将在下一节中详细了解LoRA)论文中提出的。

“QLoRA是一种微调方法,它将模型量化至4位,并向模型中添加一组低秩适应(LoRA)权重,然后通过量化权重对其进行调优。除了标准的Float4数据类型(LinearFP4)外,该方法还引入了一种新的数据类型——4位归一化浮点(LinearNF4)。LinearNF4是适用于正态分布数据的量化数据类型,能够提升性能。”

如果选择使用这种方法对模型进行量化,还需应用BitsAndBytes配置中的其他一些参数和默认值:

  • “bnb_4bit_quant_type”:“fp4”
  • “bnb_4bit_use_double_quant”:False
  • “bnb_4bit_compute_dtype”:torch.float32
  • “bnb_4bit_quant_storage”:torch.uint8

此外,尽管命名欠佳,但仍可使用llm_int8_skip_modules参数,其作用与上一节中描述的完全一致。

使用所有默认选项是完全可行的,但自行选择参数可能仍会带来一些好处:

  • nf4(归一化浮点)量化类型可提供更优的性能。
  • 双重量化可用于对第一次量化得到的常数进行量化(本质上,这是嵌套量化)。据说这种方式每个参数可额外节省0.4位。
  • 使用torch.bfloat16作
http://www.dtcms.com/a/341592.html

相关文章:

  • linux内核源码下载
  • CMOS知识点 MOS管不同工作区域电容特性
  • SED项目复现学习实录
  • Linux基础介绍-3——第一阶段
  • oracle服务器导入dmp文件
  • 力扣 hot100 Day79
  • ragflow 通过HuggingFace 配置rerank模型
  • 有序二叉树的删除
  • leetcode 3 无重复字符的最长子串
  • 个人使用AI开发的《PlSqlRewrite4GaussDB(PLSQL自动转换工具)1.0.1 BETA》发布
  • 【OneAI】使用Rust构建的轻量AI网关
  • linux环境问题
  • HyperMesh许可证分配优化策略
  • 【Ansible】变量、机密、事实
  • 福昕PDF编辑软件高级版下载与详细图文安装教程!!
  • Pub/Sub是什么意思
  • LWIP的Socket API 与实现关系
  • c#入门笔记(3)
  • 图像数据增强的高效执行
  • Linux下运行Jmeter压测
  • Kafka如何保证「消息不丢失」,「顺序传输」,「不重复消费」,以及为什么会发生重平衡(reblanace)
  • 攻克PostgreSQL专家认证
  • Git Commit 提交信息标准格式
  • Python打卡Day47 注意力热图可视化
  • 字符设备驱动、块设备驱动和网络设备驱动
  • Gitee仓库 日常操作详细步骤
  • Linux服务器性能优化总结
  • 【数据结构】快速排序算法精髓解析
  • shell脚本——搜索某个目录下带指定前缀的文件
  • 50.Seata-AT模式