当前位置：首页 > news >正文

论文笔记：Tuning Language Models by Proxy

news 2025/10/11 11:40:39

COLM 2024

1 INTRO

尽管大型预训练语言模型（如 GPT-4、LLAMA2 等）具有很强的通用能力，但它们仍然需要进一步的微调来更好地完成特定任务，比如：

遵循指令（instruction-following）
适应特定领域（如代码、法律等）
执行具体任务（如问答、数学推理）

问题是：

这些微调成本高昂，资源需求大；
对于闭源模型（如 GPT-4），用户甚至无法访问其参数，无法直接微调。

论文提出了Proxy-tuning
- 一种 “推理时调整（decoding-time adaptation）” 的方法，不需要修改大模型的权重，仅需访问其 输出的 token 分布（logits）。
- 基本思想是
  - 微调一个 小模型（称为 expert，专家模型）；
  - 将其与原始小模型（称为 anti-expert，反专家）对比；
  - 将它们的预测差异用于 引导大模型的输出，以模仿微调后模型的行为。

2 方法

假设我们有一个预训练模型，我们希望对它进行调优。
- 对于任意输入，我们假设可以访问其对整个词表的输出 logits。
- 我们的问题是：如何在不需要修改其参数的情况下，引导 $\mathcal{M}$ 表现得像一个已经被调优过的模型？
我们假设存在一个小型的预训练模型，我们将其直接微调，得到。
- 注意， $\mathcal{M}^-$ 不必与 $\mathcal{M}$ 属于同一个模型家族；我们只要求它们共享同一个词表。
- Proxy-tuning 的运作方式是：在大模型 $\mathcal{M}$ 的输出分布上，为每个 token 加上一个 logit 偏移量，这个偏移量由 $\mathcal{M}^+$ 与 $\mathcal{M}^-$ 的 logits 差值决定。

3 实验结果

指令微调（Instruction-tuning）
- 目标：让大模型（如 LLAMA2-13B, 70B）具备 LLAMA2-7B-Chat 那样的指令跟随能力。
- 效果：
  - Proxy-tuning 缩小了 LLAMA2-13B 与其 Chat 版之间 91% 的性能差距；
  - 在 70B 上缩小了 88% 的差距；
  - 某些任务中甚至 超越了直接微调模型的效果（尤其是知识密集型任务），说明 proxy-tuning 保留了更多原始知识。
领域适应（Domain Adaptation）
- 使用 CODELLAMA-7B 引导 LLAMA2-13B 向编程任务迁移；
- 在代码基准测试中，提升了 17–32% 的准确率。
任务微调（Task Finetuning）
- 应用于问答、数学推理等；
- Proxy-tuned LLAMA2-70B 比原始 70B 提升了 31%；
- 同时也超过了微调的 7B 模型 9%，说明结合大模型的知识和小模型的专长是有效的。

http://www.dtcms.com/a/293554.html

相关文章：

图机器学习（16）——图数据与自然语言处理

qiankun 和 Element UI 影响 el-cascader 宽度问题

计算机毕设分享-基于SpringBoot的房屋租赁系统（开题报告+源码+Lun文+开发文档+数据库设计文档）

win11安装erlang和rabbitmq

基于 XGBoost 与 SHAP 的医疗自动化办公与可视化系统（上）

Kafka——Kafka中的位移提交

ITIL 4：云计算与微服务对组织架构的影响

Elasticsearch(ES)介绍和安装

20250704-基于强化学习在云计算环境中的虚拟机资源调度研究

ElasticSearch基础数据管理详解

CSS3文本阴影特效全攻略

Paimon的部分更新以及DeleteVector实现

把xml的格式从utf-8-bom转为utf-8

HarmonyOS Flutter Boost完全接入手册：爬完所有坑的实战指南

Python-docx编号列表解析：从XML迷宫到结构化数据的破局之道

SpringCloud学习总结笔记之Ribbon

IDEA maven加载依赖失败不展示Dependencies项

图机器学习（18）——使用图构建文档主题分类模型

使用idea 将一个git分支的部分记录合并到git另一个分支

阿里云ODPS十五周年重磅升级发布：为AI而生的数据平台

第七章 Pytorch构建模型详解【构建CIFAR10模型结构】

Cmake、VS2019、C++、openGLopenCV环境安装

idea部署新项目时，用自定义的maven出现的问题解决

charles手机端抓包 ios 安卓通用

【js(5)原型与原型链】

反向传播及优化器

【图像翻转+图像的仿射变换】——图像预处理（OpenCV）

网络--VLAN技术

Ruby 命令行选项详解

C++ std::list概念与使用案例