当前位置: 首页 > news >正文

子网站建设方案做一个小说阅读网站怎么做

子网站建设方案,做一个小说阅读网站怎么做,重庆安全员c证在哪里查询,推荐常州模板网站建设使用 Hugging Face Transformers 库中 BitsAndBytesConfig 进行动态量化时需要配置的核心参数: 一、核心量化参数配置 load_in_4bit 作用:启用 4 比特动态量化模式,将模型权重压缩为 4 位存储格式。 类型:bool,默认 F…

使用 Hugging Face Transformers 库中 BitsAndBytesConfig 进行动态量化时需要配置的核心参数:

一、核心量化参数配置

  • load_in_4bit

    作用:启用 4 比特动态量化模式,将模型权重压缩为 4 位存储格式。

    类型:bool,默认 False。

    示例:

      quantization_config = BitsAndBytesConfig(load_in_4bit=True)
    

    适用场景:需显著减少模型显存占用的场景,例如在消费级 GPU(如 RTX 3090)上运行 7B 以上大模型。

  • bnb_4bit_quant_type

    作用:指定 4 比特量化的数据类型,支持 nf4(NormalFloat4)和 fp4(自定义浮点4)两种格式。

    nf4:基于正态分布优化的 4 位格式,适合预训练权重(信息论最优表示)。

    fp4:4 位浮点格式,包含 1 符号位 + 2 指数位 + 1 尾数位,适用于激活值动态量化。

    示例:

      quantization_config = BitsAndBytesConfig(load_in_4bit=True, bnb_4bit_quant_type="nf4")
    
  • bnb_4bit_compute_dtype

    作用:指定计算时使用的数据类型,通常设为 torch.bfloat16 或 torch.float16 以加速计算。

    类型:torch.dtype,默认 torch.float32。

    示例:

      quantization_config = BitsAndBytesConfig(load_in_4bit=True,bnb_4bit_compute_dtype=torch.bfloat16
    )
    

    优化效果:将计算精度降至 16 位,可提升推理速度 30% 以上。

二、内存优化参数

  • bnb_4bit_use_double_quant

    作用:启用嵌套量化(Double Quantization),对量化系数进行二次压缩,进一步减少内存占用。

    类型:bool,默认 False。

    示例:

      quantization_config = BitsAndBytesConfig(load_in_4bit=True,bnb_4bit_use_double_quant=True
    )
    

    效果:可额外节省约 0.5GB 内存(以 7B 模型为例)。

  • llm_int8_threshold

    作用:设定激活值异常检测阈值,超过该值的激活值保留为 FP16 计算以避免精度损失。

    类型:float,默认 6.0。

    示例:

      quantization_config = BitsAndBytesConfig(load_in_4bit=True,llm_int8_threshold=10.0  # 适用于激活值波动较大的模型
    )
    

    调整建议:对于小模型或微调模型,建议降低至 4.0-8.0。

三、高级控制参数

  • llm_int8_skip_modules

    作用:指定跳过量化的模块列表,避免敏感层(如输出层)因量化导致性能下降。

    类型:List[str]。

    示例:

      quantization_config = BitsAndBytesConfig(load_in_4bit=True,llm_int8_skip_modules=["lm_head", "embed_tokens"]
    )
    
  • llm_int8_enable_fp32_cpu_offload

    作用:启用 FP32 CPU 卸载,将部分计算转移至 CPU 以节省 GPU 显存。

    类型:bool,默认 False。

    示例:

      quantization_config = BitsAndBytesConfig(load_in_4bit=True,llm_int8_enable_fp32_cpu_offload=True
    )
    

    适用场景:显存不足时混合使用 CPU/GPU 资源。

四、典型配置示例

  • 场景 1:高精度推理
	from transformers import BitsAndBytesConfigquantization_config = BitsAndBytesConfig(load_in_4bit=True,bnb_4bit_quant_type="nf4",bnb_4bit_compute_dtype=torch.bfloat16,bnb_4bit_use_double_quant=True,llm_int8_threshold=6.0)
  • 场景 2:低显存微调
quantization_config = BitsAndBytesConfig(load_in_4bit=True,bnb_4bit_quant_type="fp4",llm_int8_skip_modules=["lm_head"],llm_int8_enable_fp32_cpu_offload=True
)
http://www.dtcms.com/a/467066.html

相关文章:

  • 网站第三方统计工具如何修改网站底部
  • 【论文精读】TextCrafter:复杂视觉场景中多文本精确渲染的革新框架
  • 【每日算法C#】x 的平方根 LeetCode
  • HT513:低成本高适配的 I2S 输入单声道 D 类音频功率放大器深度解析
  • Roo Code常见问题
  • 怎么创建网站 免费的改版百度不收录网站
  • 教育网站官网深圳小程序开发设计
  • win11 hyper-v 搭建集群虚拟机(用于k8s)
  • 不同材质的实验室试管有何优缺点?哪个更适合你的实验?
  • 高州市网站建设如何做自己的小说网站
  • 建设网站注意实现佛山网站建设公司招聘
  • 贵州 做企业网站的流程页面布局在哪里找到
  • Python爬虫绕过网站验证的完整实战框架(专业级·高实用性)
  • 番禺怎样优化网站建设网站开发的项目开发计划
  • 七段 S 曲线速度规划方法
  • 广州正规网站建设哪家好上哪里建设个人网站
  • 做电商需要哪些网站有哪些网页的开发流程
  • UVa 12143 Stopping Doom‘s Day
  • 搭建 Python 开发环境(Python 运行环境、PyCharm 开发工具)
  • 【Unity3D脚本与系统设计8】时间计时器
  • 网站开发实践体会兴义网站建设
  • 网页小游戏的网站网站国外建设
  • 招聘seo专员资阳优化团队信息
  • 无锡营销型网站价格wordpress 搜索用户名
  • 【开题答辩全过程】以 TeamW动漫网站为例,包含答辩的问题和答案
  • 西安GEO优化专家杨建允:AI搜索优化,从语义理解到全域引流
  • 网站首页动画模板邯郸人才网
  • 时序预测模型Timesnet(项目报告)
  • 成都网站网页制作网站服务器做缓存
  • 网站设计与规划seo专业培训班