当前位置：首页 > news >正文

大模型4位量化（46）

news 2025/8/21 13:12:48

4位量化

4位量化的情况开始变得更有意思。我们可选的量化数据类型不止一种，而是两种：FP4和NF4，分别代表浮点和归一化浮点。这种新的数据类型（NF4）是在QLoRA（量化LoRA；我们将在下一节中详细了解LoRA）论文中提出的。

“QLoRA是一种微调方法，它将模型量化至4位，并向模型中添加一组低秩适应（LoRA）权重，然后通过量化权重对其进行调优。除了标准的Float4数据类型（LinearFP4）外，该方法还引入了一种新的数据类型——4位归一化浮点（LinearNF4）。LinearNF4是适用于正态分布数据的量化数据类型，能够提升性能。”

如果选择使用这种方法对模型进行量化，还需应用BitsAndBytes配置中的其他一些参数和默认值：

“bnb_4bit_quant_type”：“fp4”
“bnb_4bit_use_double_quant”：False
“bnb_4bit_compute_dtype”：torch.float32
“bnb_4bit_quant_storage”：torch.uint8

此外，尽管命名欠佳，但仍可使用llm_int8_skip_modules参数，其作用与上一节中描述的完全一致。

使用所有默认选项是完全可行的，但自行选择参数可能仍会带来一些好处：

nf4（归一化浮点）量化类型可提供更优的性能。
双重量化可用于对第一次量化得到的常数进行量化（本质上，这是嵌套量化）。据说这种方式每个参数可额外节省0.4位。
使用torch.bfloat16作

http://www.dtcms.com/a/341592.html

相关文章：

linux内核源码下载

CMOS知识点 MOS管不同工作区域电容特性

SED项目复现学习实录

Linux基础介绍-3——第一阶段

oracle服务器导入dmp文件

力扣 hot100 Day79

ragflow 通过HuggingFace 配置rerank模型

有序二叉树的删除

leetcode 3 无重复字符的最长子串

个人使用AI开发的《PlSqlRewrite4GaussDB(PLSQL自动转换工具)1.0.1 BETA》发布

【OneAI】使用Rust构建的轻量AI网关

linux环境问题

HyperMesh许可证分配优化策略

【Ansible】变量、机密、事实

福昕PDF编辑软件高级版下载与详细图文安装教程！！

Pub/Sub是什么意思

LWIP的Socket API 与实现关系

c#入门笔记（3）

图像数据增强的高效执行

Linux下运行Jmeter压测

Kafka如何保证「消息不丢失」，「顺序传输」，「不重复消费」，以及为什么会发生重平衡（reblanace）

攻克PostgreSQL专家认证

Git Commit 提交信息标准格式

Python打卡Day47 注意力热图可视化

字符设备驱动、块设备驱动和网络设备驱动

Gitee仓库日常操作详细步骤

Linux服务器性能优化总结

【数据结构】快速排序算法精髓解析

shell脚本——搜索某个目录下带指定前缀的文件

50.Seata-AT模式