当前位置：首页 > news >正文

论文略读：Arcee’s MergeKit: A Toolkit for Merging Large Language Models

news 2025/10/14 19:28:30

emnlp 2024

在过去的一年里，开源大型语言模型（LLMs）迅速发展，并已可通过 Hugging Face 模型库获取。
- 这些模型的训练规模可达数万亿个 token，参数量通常在 1 亿至 700 亿以上不等
- 开源模型检查点涵盖了多种任务，既包括预训练模型，也包括指令微调模型
然而，为每项任务分别微调一个模型面临诸多挑战：
- 需要分别存储和部署多个模型；
- 各模型无法共享任务间的有用知识
从零开始训练这些模型需要极大的投入。
- 而进一步微调则容易引发灾难性遗忘（catastrophic forgetting）问题，这会破坏模型原有的通用能力和多任务表现
- 将模型调整为符合用户偏好的响应行为通常需要大量人类偏好数据，这对于大多数团队来说是难以获得的
这引出了一个关键问题：如何有效利用现有的预训练模型检查点？
- 模型融合（model merging）因此成为一个变革性策略——通过将多个模型的参数融合为一个单一模型，不仅实现了多任务学习和持续学习，还有效缓解了灾难性遗忘的问题
- 在本文中，我们提出了 MergeKit ——一个用于执行社区提出的模型融合策略的统一库。MergeKit 兼容 内存受限的 CPU 以及 加速的 GPU 设备。

http://www.dtcms.com/a/292579.html

相关文章：

电商开放平台获取商品数据返回信息详解

旷视科技视觉算法面试30问全景精解

飞算科技：用AI与数智科技，为产业数字化转型按下“加速键”

proxmox 解决docker容器MongoDB创建报错MongoDB 5.0+ requires a CPU with AVX support

【集群】MySQL的主从复制了解吗？会有延迟吗，原因是什么？

【无标题】AI视频-剧本篇学习笔记

【面试】Redis分布式ID与锁的底层博弈：高并发下的陷阱与破局之道

基于AD7147电容触摸芯片与STC12C5A60S2单片机方案

美颜图像开源数据集

AI 学习总结（3）—— AI 智能体零基础入门

python学习-读取csv大文件

SSL VPN技术

拼多多视觉算法面试30问全景精解

分布在内侧内嗅皮层（MEC）的边界细胞对NLP中的深层语义分析的积极影响和启示

ESP32-Cam三脚架机器人：DIY你的智能移动监控平台

性能测试-从0到1搭建性能测试环境Jmeter+Grafana+influxDB+Prometheus+Linux

Redis RDB 持久化实现原理，请求是否阻塞，如何处理阻塞请求

【运维】SGLang 安装指南

Vue的ubus emit/on使用

嵌入式 Qt 开发：实现开机 Logo 和无操作自动锁屏

项目集成zustand后，如何构建和使用，以及devtools函数。

新能源工厂的可视化碳中和实验：碳足迹追踪看板与能源调度策略仿真

React 项目性能瓶颈分析

SCSAI项目管理智能体设计方案核心设计思路：分层开放架构

GitOps实践：基于Argo CD的Kubernetes集群应用持续交付实战指南

智慧能源驱动数字孪生重介选煤新模式探索

力扣 78.子集

【element-ui el-table】多选表格勾选时默认勾选了全部，row-key绑定异常问题解决

EasyMan 数字人服务全面焕新，交互型AI数字人助推孪生体验全新升级

等保2.0详解：筑牢数字时代安全基石