当前位置: 首页 > news >正文

大模型量化004

Bert+ P-tuning

Bert+PET、Bert+P-Tuning

Chain of Thought
Few shot Cot
Auto-COT 解决手动编写高质量CoT示例麻烦耗时的问题

Auto COT 自动思维链生成器

1.业务场景: 每天收到很多反馈,之前需要人工整理,找到重点,做判断那些需要立即处理,
那些可以 慢慢处理,那些不是问题,希望生成报告
2反馈聚类:
根据这个反馈,看一看提出了哪些方面的问题
3代表性采样:
从历史的业务数据中找到每个类别,代表性问题
4.Zero shot Cot 生成分析范例:
把代表性问题丢给大模型,让他生成思考过程
添加大模型作为裁判
5. 构建最终提示:
将前面的内容拼接 成一个few shot
把拼接好的结果丢给大模型。

比较适合的业务场景:
问题多样性 要处理的问题是不是高度多样化,需要考虑不同的维度
是否需要多步复杂推理
示例构建难度 (自己手动写高质量的COT是不是很耗时间)
是不是总有扩展需求
质量需求(当前任务对结果需求是否很高)
上面几个问题,有一半以上都跟场景能对得上,就是适合的场景,如果不是,自己写COT的提示词模板
速度慢,比较浪费TOKEN

大模型的量化:

H20 8卡 96G 141G
DeepSeek R1 671B FP8训练的 1B字节对应1G 输入KV-cache

4090 24G 5090 32G 量化+offload 卸载一部分参数加载到内存中
KTransformer 存内存的方式 GPU+内存

FP64
FP32
FP16、BF16
FP8 FP6 FP4
int8 int4
GGUF
在这里插入图片描述

qwen3 8B模型 参数装进显卡 FP8 需要多少显存
在这里插入图片描述在这里插入图片描述

FP16, BF16 int8 在各种卡上都能跑的量化方式。
v100 相对便宜一点 32G 5000元
H20 150W
消费级显卡: 3090 4090 5090 游戏卡

对称量化

在这里插入图片描述
在这里插入图片描述

非对称量化

范围映射与裁剪 Clipping

训练后量化 Post-Training Quantization

在这里插入图片描述
然后,这个激活值的分布被用来计算量化输出所需要的零点(z)和 缩放因子(s)

Dynamic Quantization 动态

Static Quantization 静态

在这里插入图片描述

量化计算方式:
对称量化
非对称量化
量化的时机:
训练后量化:
静态量化, 激活值通过一组校准数据集,走一遍模型,计算出数据经过每一层的 s 和 z,
把每层的s 和 z都存起来
动态量化:一边 推理一边计算
训练时量化:


在这里插入图片描述

在这里插入图片描述

量化感知训练:

在这里插入图片描述

显卡:
本地化部署:
2016年 Pascal Tesla P100 Tesla P40 24G显存 几百块钱
FP32 int8
FP16/BF16 不支持
Volta 2017 V100 32G/ 16G
FP16 Tensor Core BF16不支持
int8
Turing 架构 2018 年
Tesla T4 2080Ti 22G显存(2500-3000) 11G显存
FP16 int8 int4 硬件加速
BF16不支持
Ampere 2020年
A100 80G、40G显存
L20 L40 48G显存
原生支持BF16 上限与下限比较大 对比FP16容易出现值溢出
Hopper H100 H200(国内有限制了)
FP8 好多大模型都是在FP8精度上进行训练的
H20 对中国大陆的阉割版 算力,带宽都有限制

2024 blackwell B100 B200
FP4 原生支持

云 阿里云 V100

消费机显卡 , 工业级显卡
消费级显卡: 算力带宽比同时期的工业级显卡 要小
工业级显卡: 支持nylink 带宽比较高,传输效率比较高
多卡

单机单卡:

671B FP8

多机多卡:每台机器之间网络连接

量化重点:
FP16,BF16
int8 int4
FP8 现在大多数的新的模型都是在FP8精度下训练的。
int8 int4 低于8的低比特量化主要用于推理阶段

量化的计算方式:
对称: 量化前是 0 和 量化后 还是0
非对称:
量化的时机:
训练后量化:
动态量化
静态量化
训练量化感知(训练时就考虑量化)
低比特量化:
GGUF

http://www.dtcms.com/a/305409.html

相关文章:

  • 机器学习-贝叶斯函数(理解版)
  • Xmind 2025下载与保姆级安装教程
  • 数据库-索引
  • Python Day17 常用模块 和 加解密操作 及例题分析
  • window weblogic 解锁
  • Java 9 新特性解析
  • 《零基础入门AI:传统机器学习入门(从理论到Scikit-Learn实践)》
  • 36.Manacher 算法
  • 【n8n】如何跟着AI学习n8n【01】:定制AI老师
  • 【Linux】pthread学习笔记
  • scrapy框架新浪新闻
  • 使用JSON Schema 的 dependencies 实现 LLM 工具调用的参数约束
  • C 语言基础第16天:指针补充
  • 粒子群优化算法(Particle Swarm Optimization, PSO) 求解二维 Rastrigin 函数最小值问题
  • Mysql缓冲池和LRU
  • 关注 Yocto项目实战教程
  • PyCharm插件开发与定制指南:打造个性化开发环境
  • C++ 模板类型传递可行性检测指南
  • 3D打印喷头的基本结构
  • 区间DP求解策略详解
  • cmseasy靶机密码爆破通关教程
  • 第一章 RAG三问
  • flask使用celery通过数据库定时
  • 【专题十六】BFS 解决最短路径
  • Qt制作一个简单通信程序
  • C语言---万能指针(void *)、查找子串(strncmp函数的应用)多维数组(一维数组指针、二维数组指针)、返回指针值函数、关键字(const)
  • MongoDB系列教程-第一章:MongoDB简介、安装 、概念解析、用户管理、连接、实际应用示例
  • 数据结构-图的相关定义
  • 猎豹移动宣布控股UFACTORY,合计持股超80%
  • Oracle优化学习十六