当前位置: 首页 > news >正文

论文略读: STREAMLINING REDUNDANT LAYERS TO COMPRESS LARGE LANGUAGE MODELS

2025 ICLR

  • 判断模型层的重要性->剪去不重要的层(用轻量网络代替)
    • 这种方法只减少了层数量,所以可以用常用的方法加载模型

  •  层剪枝阶段
    • 通过输入与输出的余弦相似度来判断各个层的重要性
    • 具有高余弦相似度的层倾向于聚集在一起,因此该方法会修剪连续的层
  • 层替换阶段
    • 训练了一个轻量级蒸馏小模型来弥补剪枝带来的性能损失
    • 根据预定义的修剪率选择从 i 到 i+n 的层进行修剪后,从第 i 层的输入和第 i+n 层的输出中收集隐藏状态作为训练数据,并使用 MSE Loss 通过蒸馏来训练一个轻量级模型
    • 层替换 VS LoRA
      • 过去的结构化剪枝方法一般使用 LoRA 方法训练,而相比之下,层替换方法有着以下优势: 
        • 更低的 GPU 内存消耗
          • 层替换方法只需要在隐藏状态收集期间对原始模型进行前向传播的成本
          • 在训练期间,仅训练轻量级网络
          • ——>比 LoRA 更节省内存
        • 更合理的训练方法
          • LoRA 直接训练剩余的层
          • ——>用轻量级网络替换修剪层比训练剩余层更简单

相关文章:

  • 霹雳吧啦Wz_深度学习-图像分类篇章_1.1 卷积神经网络基础_笔记
  • Ubuntu 和 Linux 命令行是高度通用的
  • MySql(六)
  • 【大模型02】Deepseek使用和prompt工程
  • Python 基于卷积神经网络手写数字识别
  • 基于ELK的分布式日志实时分析与可视化系统设计
  • PHP序列化和反序列化
  • 分布式数据库备份实践
  • word文档格式规范(论文格式规范、word格式、论文格式、文章格式、格式prompt)
  • python中使用高并发分布式队列库celery的那些坑
  • 基于Web的分布式图集管理系统架构设计与实践
  • ICASSP2025丨融合语音停顿信息与语言模型的阿尔兹海默病检测
  • 分布式不同数据的一致性模型
  • 从零实现基于BERT的中文文本情感分析的任务
  • 分布式CAP理论
  • 【STIP】安全Transformer推理协议
  • 云原生时代 Kafka 深度实践:02快速上手与环境搭建
  • pcie gen3 phy tx
  • t009-线上代驾管理系统
  • StarRocks x Iceberg:云原生湖仓分析技术揭秘与最佳实践
  • jsp商务网站建设/湖南网站设计外包费用
  • 做网站前台用什么问题/360优化大师官方官网
  • 长沙建设工程造价网站/百度广告怎么收费
  • 网站的申请/百度关键词seo优化
  • 网站建设教程免费夕滋湖南岚鸿官网/百度网站大全旧版
  • 完善网站建设的必要性/安卓优化大师清理