当前位置: 首页 > news >正文

华为:合并LLM以减少冗余推理

在这里插入图片描述

📖标题:Unlocking Efficient Long-to-Short LLM Reasoning with Model Merging
🌐来源:arXiv, 2503.20641

🌟摘要

🔸从系统 1 到大型语言模型 (LLM) 中的系统 2 推理的转变通过深思熟虑的迭代思维在处理复杂任务时取得了重大进展。然而,这一进展通常以效率为代价,因为模型倾向于过度思考,生成冗余推理步骤,而不会对输出质量进行成比例的改进。长短期记忆 (L2S) 推理已成为这一挑战的一个有前途的解决方案,旨在平衡推理深度和实际效率。虽然现有方法,例如监督微调 (SFT)、强化学习 (RL) 和提示工程,已经显示出潜力,但它们要么计算成本高,要么不稳定。另一方面,模型合并通过将系统 1 模型的快速思考能力与系统 2 模型的方法推理相结合,提供了一种具有成本效益的和稳健的替代方案。
🔸在这项工作中,我们对 L2S 推理的模型合并进行了全面的实证研究,探索了各种方法,包括基于任务向量、基于 SVD 和激活信息合并。我们的实验表明,模型合并可以在保留甚至提高基线性能的同时将平均响应长度减少高达 55%。我们还通过对 1.5B/7B/14B/32B 模型的广泛评估,确定了模型规模和合并功效之间的强相关性。此外,我们研究了合并模型对自批评和自校正的能力,以及基于任务复杂性的自适应响应长度。
🔸我们的研究结果强调了模型合并作为 L2S 推理的一种高效有效的范式,为过度思考问题提供了一种实用的解决方案,同时保持了系统 2 推理的鲁棒性。这项工作可以在 Github https://github.com/hahawu/Long-to-Short-via-Model-Merging 上找到。

🛎️文章简介

🔸研究问题:大语言模型(LLM)在复杂推理任务中表现低效,尤其是在长到短推理过程中存在冗余和重复推理。
🔸主要贡献:论文提出了一种高效的模型合并方法,通过集成系统1和系统2的优点,显著减少推理长度并保持性能。

📝重点思路

🔸采用长到短推理(L2S)方法,通过模型合并技术有效整合多个任务专用模型,减少冗余和提高推理效率。
🔸介绍了多种模型合并方法,包括任务向量基础合并、奇异值分解(SVD)合并和激活基础合并,分析其在长到短推理中的应用效果。
🔸通过实验评估不同规模模型的合并效果,特别关注7B规模模型的性能表现。

🔎分析总结

🔸任务向量基础合并方法(如TA和Ties-Merging)能够在保持准确性的同时,实现约50%的推理长度减少。
🔸SVD基础合并方法的效果有限,未能有效应对任务向量干扰,且在复杂任务上表现较好。
🔸激活基础合并方法显示出较强的性能,能够在减少响应长度的同时提升推理准确性。
🔸合并模型在不同规模下表现不一,小型模型在获取长推理能力上存在困难,而大型模型在推理性能保持上相对较好。

💡个人观点

论文的核心在于快慢思考模型的合并,以解决LLM推理过程中的冗余。

🧩附录

在这里插入图片描述

http://www.dtcms.com/a/112981.html

相关文章:

  • 蓝桥杯高频考点——经典01背包问题详解(附例题)
  • 前端布局难题:父元素padding导致子元素无法全屏?3种解决方案
  • $R^n$平面约束下的向量列
  • PCL学习(5)随机采样一致性算法RANSAC
  • Maven工具学习使用(七)——Maven属性
  • 从零构建大语言模型全栈开发指南:第三部分:训练与优化技术-3.1.2Tokenization策略:BPE算法与词表设计
  • 4.5蓝桥入门赛题解
  • 高级:分布式系统面试题精讲
  • ARXML文件解析-2
  • STL剖析
  • 人工智能赋能工业制造:智能制造的未来之路
  • Hash结构之购物车实战
  • 【零基础入门unity游戏开发——动画篇】unity旧动画系统Animation组件的使用
  • AntDesign下,Select内嵌Menu标签,做一个多选下拉框,既可以搜索,还可以选择下拉项
  • 【项目管理】第一部分 信息技术 1/2
  • 十道海量数据处理面试题与十个方法总结
  • 嵌入式Linux驱动—— 1 GPIO配置
  • 浙考!【触发器逻辑方程推导(电位运算)】
  • Ai提示词大师 1.0 | 预制1000+模板满足
  • 《Java实战:素数检测算法优化全解析——从暴力枚举到筛法进阶》
  • GD32H759IMT6 Cortex-M7 OpenHarmony轻量系统移植——4.1版本升级到5.0.3
  • 网络编程—TCP/IP模型(UDP协议与自定义协议)
  • Altshuller矛盾矩阵查询:基于python和streamlit
  • 哈希表(Hashtable)核心知识点详解
  • 【虚拟仪器技术】Labview虚拟仪器技术习题答案(二),设计VI程序
  • 练习题:124
  • Java Web从入门到精通:全面探索与实战(一)
  • 基于YOLO11实例分割与奥比中光相机的快递包裹抓取点检测
  • 基于CATIA产品结构树智能排序的二次开发技术解析——深度定制BOM层级管理系统的Pycatia实践
  • docker搭建minio集群(简化版)