当前位置: 首页 > news >正文

【论文笔记】Transformer^2: 自适应大型语言模型

在这里插入图片描述

Code repo: https://github.com/SakanaAI/self-adaptive-llms


摘要

自适应大型语言模型(LLMs)旨在解决传统微调方法的挑战,这些方法通常计算密集且难以处理多样化的任务。本文介绍了Transformer²(Transformer-Squared),一种新颖的自适应框架,通过在推理时选择性地调整权重矩阵的单个奇异分量来实时适应未见过的任务。Transformer²在参数数量较少且效率更高的情况下,持续优于LoRA等常用方法。此外,Transformer²在不同LLM架构和模态(包括视觉语言任务)中表现出色,代表了自适应LLMs的重大进步。

引言

自适应LLMs代表了人工智能的重大进步,提供了一个框架,使模型能够实时调整以适应不同的任务和动态环境。传统的LLM训练方法试图在一次广泛的训练会话中优化模型的多种能力,这在实践中难以实现。相比之下,自适应模型提供了一种更灵活和高效的方法,允许模型根据手头的任务动态修改其行为。

相关工作

  • 自适应LLMs:定义为一组LLMs或一个独立的LLM,能够响应其操作环境或内部状态的变化而评估和修改其行为。
  • 低秩适应:如LoRA,通过引入小的可训练低秩矩阵来实现任务特定的更新。
  • SVD用于LLM微调:使用SVD来近似原始权重矩阵,以提高效率。

方法

在这里插入图片描述

Transformer²

Transformer²的构建包括两个主要步骤:

  1. 奇异值微调(SVF):通过RL学习紧凑且可组合的专家向量,基于基础模型权重的SVD。

  2. 自适应策略:在推理时动态组合SVF训练的专家向量,提供三种不同的自适应策略:

    • 提示工程:构建新的“适应”提示,直接询问LLM分类输入提示。
    • 分类专家:使用专门的系统处理任务识别。
    • 少样本适应:通过线性插值在K个学习到的SVF向量之间进行加权组合。

实验

实验评估了Transformer²在多个任务和模型上的表现:

  1. SVF性能:在GSM8K、MBPP-Pro和ARC-Easy任务上,SVF提供了显著且一致的性能提升。
  2. 自适应性能:在未见过的任务(如MATH、Humaneval、ARC-Challenge)上,Transformer²的自适应策略展示了改进。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

结论

本文介绍了Transformer²,提供了一个实现自适应LLMs的新蓝图。通过SVF和三种自适应策略,Transformer²展示了在提高模型适应性和任务特定性能方面的优势。未来的工作可以集中在模型合并和高效适应技术上,以实现更强大的自适应LLMs。

相关文章:

  • 【Linux】【网络】Libevent基础
  • React入门 – 1. 学习React的预备知识
  • JVM内存模型详解
  • 数据结构-双向链表
  • 面试题之Vuex,sessionStorage,localStorage的区别
  • Qt常用控件之按钮QPushButton
  • 解决 `pip is configured with locations that require TLS/SSL` 错误
  • 使用DeepSeek+本地知识库,尝试从0到1搭建高度定制化工作流(数据分析篇)
  • RabbitMQ 3.12.2:单节点与集群部署实战指南
  • lab3 CSAPP:AttackLab
  • PosgreSQL比MySQL更优秀吗?
  • nlp|微调大语言模型初探索(2),训练自己的聊天机器人
  • 算法与数据结构(最小栈)
  • Python Cookbook-1.21 在Unicode和普通字符串之间转换
  • 【Python 语法】Python 正则表达式(regular expressions, regex)
  • 代码随想录 第一章 数组 977.有序数组的平方
  • 【拒绝算法PUA】LeetCode 1287. 有序数组中出现次数超过25%的元素
  • 30填学习自制操作系统第二天
  • 从MySQL迁移到PostgreSQL的完整指南
  • 【Elasticsearch】硬件资源优化
  • 复旦一校友捐赠1亿元,却不留名
  • 东航C919航线上新!正式投入上海虹桥—深圳航线运营
  • 天问二号探测器顺利转入发射区
  • 缅甸发生5.0级地震
  • 茅台总经理到访五粮液:面对白酒行业周期性调整,需要团结一心的合力
  • 河南一县政府党组成员签订抵制违规吃喝问题承诺书,现场交给县长