当前位置: 首页 > news >正文

大模型量化与剪枝

大模型量化,剪枝

量化有助于减少显存使用并加速推理
GPTQ 等后训练量化方法(Post Training Quantization)是一种在训练后对预训练模型进行量化的方法。

### model
model_name_or_path: meta-llama/Meta-Llama-3-8B-Instruct
template: llama3### export
export_dir: models/llama3_gptq
export_quantization_bit: 4
export_quantization_dataset: data/c4_demo.json
export_size: 2
export_device: cpu
export_legacy_format: false

QLoRA 是一种在 4-bit 量化模型基础上使用 LoRA 方法进行训练的技术。它在极大地保持了模型性能的同时大幅减少了显存占用和推理时间。

### model
model_name_or_path: meta-llama/Meta-Llama-3-8B-Instruct
adapter_name_or_path: saves/llama3-8b/lora/sft
template: llama3
finetuning_type: lora### export
export_dir: models/llama3_lora_sft
export_size: 2
export_device: cpu
export_legacy_format: false

量化7B模型,12GB显存不够用
在这里插入图片描述

增大至24G显存就够了

在这里插入图片描述
量化加载的参数更多,所以对显存的需求更大

剪枝
在这里插入图片描述
在这里插入图片描述

http://www.dtcms.com/a/249872.html

相关文章:

  • 【0.0 漫画C语言计算机基础 - 从二进制开始认识计算机】
  • Cursor链接远程服务器实现项目部署
  • 【python】bash: !‘: event not found
  • ABC410 : F - Balanced Rectangles
  • nginx 配置返回 文件大小
  • 2025年渗透测试面试题总结-浙江东岸检测[实习]安全工程师(题目+回答)
  • 【华为开发者学堂】HarmonyOS
  • 16.vue.js watch()和watchEffect()的对比?(追踪依赖)(3)
  • Python 训练营打卡 Day 45-Tensorboard
  • 20250614让NanoPi NEO core开发板在Ubuntu core16.04系统下使用耳机播音测试
  • conda虚拟环境管理
  • Qt事件处理
  • SpringBoot 自动化部署实战:从环境搭建到 CI/CD 全流程
  • Prompt工程在企业场景的实战应用:用Grok 3 API优化客服系统的3个技巧
  • Android Activity全面解析:从创建到生命周期的完整指南
  • cesium入门
  • event.target 详解:理解事件目标对象
  • 有关Spring事务的传播机制
  • Java 单例模式实现方式
  • 基于51单片机的校园打铃及灯控制系统
  • 内容风控概念基础
  • Vue 3 砸金蛋互动抽奖游戏
  • Gartner《Build Scalable Data Products With This Step-by-Step Framework》学习报告
  • 互联网校招腾讯26届校招暑期实习综合素质测评答题攻略及真题题库
  • jQuery.ajax() 方法核心参数详解
  • Vue3中v-bind=“$attrs“应用实例
  • 【学习笔记】Langchain基础(二)
  • 日志分割问题
  • 从大数据到大模型:我们是否在重蹈覆覆辙
  • 数据库连接池深度研究分析报告