当前位置: 首页 > news >正文

论文笔记:Tuning Language Models by Proxy

COLM 2024

1 INTRO

尽管大型预训练语言模型(如 GPT-4、LLAMA2 等)具有很强的通用能力,但它们仍然需要进一步的微调来更好地完成特定任务,比如:

  • 遵循指令(instruction-following)

  • 适应特定领域(如代码、法律等)

  • 执行具体任务(如问答、数学推理)

问题是:

  • 这些微调成本高昂,资源需求大;

  • 对于闭源模型(如 GPT-4),用户甚至无法访问其参数,无法直接微调

  • 论文提出了Proxy-tuning
    • 一种 “推理时调整(decoding-time adaptation)” 的方法,不需要修改大模型的权重,仅需访问其 输出的 token 分布(logits)

    • 基本思想是

      • 微调一个 小模型(称为 expert,专家模型);

      • 将其与原始小模型(称为 anti-expert,反专家)对比;

      • 将它们的预测差异用于 引导大模型的输出,以模仿微调后模型的行为。

2 方法

  • 假设我们有一个预训练模型\mathcal{M},我们希望对它进行调优。
    • 对于任意输入,我们假设可以访问其对整个词表的输出 logits。
    • 我们的问题是:如何在不需要修改其参数的情况下,引导 \mathcal{M}表现得像一个已经被调优过的模型?
  • 我们假设存在一个小型的预训练模型\mathcal{M}^-,我们将其直接微调,得到\mathcal{M}^+
    • 注意,\mathcal{M}^- 不必与 \mathcal{M}属于同一个模型家族;我们只要求它们共享同一个词表。
    • Proxy-tuning 的运作方式是:在大模型\mathcal{M}的输出分布上,为每个 token 加上一个 logit 偏移量,这个偏移量由 \mathcal{M}^+\mathcal{M}^- 的 logits 差值决定。

3 实验结果 

  • 指令微调(Instruction-tuning)

    • 目标:让大模型(如 LLAMA2-13B, 70B)具备 LLAMA2-7B-Chat 那样的指令跟随能力。

    • 效果:

      • Proxy-tuning 缩小了 LLAMA2-13B 与其 Chat 版之间 91% 的性能差距

      • 在 70B 上缩小了 88% 的差距;

      • 某些任务中甚至 超越了直接微调模型的效果(尤其是知识密集型任务),说明 proxy-tuning 保留了更多原始知识。

  • 领域适应(Domain Adaptation)

    • 使用 CODELLAMA-7B 引导 LLAMA2-13B 向编程任务迁移;

    • 在代码基准测试中,提升了 17–32% 的准确率

  • 任务微调(Task Finetuning)

    • 应用于问答、数学推理等;

    • Proxy-tuned LLAMA2-70B 比原始 70B 提升了 31%

    • 同时也超过了微调的 7B 模型 9%,说明结合大模型的知识和小模型的专长是有效的。

http://www.dtcms.com/a/293554.html

相关文章:

  • 图机器学习(16)——图数据与自然语言处理
  • qiankun 和 Element UI 影响 el-cascader 宽度问题
  • 计算机毕设分享-基于SpringBoot的房屋租赁系统(开题报告+源码+Lun文+开发文档+数据库设计文档)
  • win11安装erlang和rabbitmq
  • 基于 XGBoost 与 SHAP 的医疗自动化办公与可视化系统(上)
  • Kafka——Kafka中的位移提交
  • ITIL 4:云计算与微服务对组织架构的影响
  • Elasticsearch(ES)介绍和安装
  • 20250704-基于强化学习在云计算环境中的虚拟机资源调度研究
  • ElasticSearch基础数据管理详解
  • CSS3文本阴影特效全攻略
  • Paimon的部分更新以及DeleteVector实现
  • 把xml的格式从utf-8-bom转为utf-8
  • HarmonyOS Flutter Boost完全接入手册:爬完所有坑的实战指南
  • Python-docx编号列表解析:从XML迷宫到结构化数据的破局之道
  • SpringCloud学习总结笔记之Ribbon
  • IDEA maven加载依赖失败不展示Dependencies项
  • 图机器学习(18)——使用图构建文档主题分类模型
  • 使用idea 将一个git分支的部分记录合并到git另一个分支
  • 阿里云ODPS十五周年重磅升级发布:为AI而生的数据平台
  • 第七章 Pytorch构建模型详解【构建CIFAR10模型结构】
  • Cmake、VS2019、C++、openGLopenCV环境安装
  • idea部署新项目时,用自定义的maven出现的问题解决
  • charles手机端抓包 ios 安卓通用
  • 【js(5)原型与原型链】
  • 反向传播及优化器
  • 【图像翻转+图像的仿射变换】——图像预处理(OpenCV)
  • 网络--VLAN技术
  • Ruby 命令行选项详解
  • C++ std::list概念与使用案例