当前位置：首页 > news >正文

SPT：选择性提示调优——让模型自动学习最佳提示插入策略

news 2025/11/10 7:38:22

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

📖 摘要与核心思想

SPT（Selective Prompt Tuning） 是一种创新的参数高效微调（Parameter-Efficient Tuning, PETuning）方法，它通过自动学习在预训练模型（PTM）的哪些中间层插入实例感知的软提示，解决了传统提示微调中人工选择提示层的局限性。传统方法通常依赖启发式策略，性能受限且收敛慢，而SPT引入了提示超网络和双级优化，能够根据下游任务自适应地选择最合适的提示层，在保证参数效率的同时，显著提升模型性能。

🧩 核心动机：人工选择提示插入层并非最优，限制了提示微调的潜力。SPT通过可学习的概率门控制提示层的选择，实现自动化、实例感知的提示插入。
🚀 主要贡献：
- 提出选择性提示调优框架，自动学习最佳提示插入策略。
- 引入SPT-DARTS优化技术，改进提示超网络的训练稳定性。
- 在多个文本分类任务和预训练模型上验证了有效性，尤其在小样本场景表现卓越。

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

往期文章推荐:

20.余弦相似度：衡量向量空间方向一致性的核心度量
19.HotpotQA：推动多跳推理问答发展的标杆数据集
18.Search-o1：增强大型推理模型的主动搜索能力
17.ViDoRAG详解：多模态文档检索增强生成框架的革命性突破
16.Graph-R1：智能图谱检索增强的结构化多轮推理框架
15.动态知识蒸馏（Dynamic KD）技术详解
14.探索LoSA：动态低秩稀疏自适应——大模型高效微调的新突破
13.DropLoRA技术详解：克服大模型微调过拟合的创新方法
12.SparseLoRA技术详解：基于动态稀疏性的大模型高效微调方法
11.LIFT：基于低秩引导的稀疏微调
10.微软SPARTA框架：高效稀疏注意力机制详解
9.差分隐私随机梯度下降（DP-SGD）详解
8.差分隐私：机器学习和数据发布中的隐私守护神
7.FSDP（Fully Sharded Data Parallel）全分片数据并行详解
6.Megatron-LM张量并行详解：原理、实现与应用
5.BPE（Byte Pair Encoding）详解：从基础原理到现代NLP应用
4.LayerNorm（层归一化）详解：原理、实现与应用
3.MinHashLSH 详解：高维数据相似性搜索与去重的关键技术
2.Jaccard相似度：集合相似性的经典度量
1.HOSVD（高阶奇异值分解）：高维数据的“解剖术”

📚 出处

论文标题：Improving Prompt Tuning with Learned Prompting Layers

🏗️ 技术原理深度解析

1. 🔍 传统提示微调的局限性

传统的提示微调（Prompt Tuning）主要在输入词嵌入层添加可训练的软提示（Soft Prompts），但存在两大瓶颈：

性能较低与收敛慢：仅优化输入层提示，难以深度引导模型高层语义表示。
人工选择提示层的次优性：现有方法要么在所有层添加提示（参数量大），要么基于启发式规则选择部分层，缺乏任务自适应性。

2. 💡 SPT的核心架构

SPT框架包含两个核心组件：提示生成器 和提示超网络。

提示生成器：为每个候选层生成实例感知的软提示。
提示超网络：通过可学习的概率门，自动选择对当前任务最重要的层插入提示。

3. ⚙️ 双级优化与概率门机制

SPT通过双级优化 同时训练提示生成器参数和结构参数：

概率门设计：每层有一个可学习的门参数 $g_l$ ，通过Sigmoid函数控制该层提示生成器的激活概率：
$p_l = \text{sigmoid}(g_l)$
优化过程中， $p_l$ 会趋向0或1，实现提示层的自动选择。
优化目标：
$\min_{\theta} \mathcal{L}_{\text{val}}(\omega^*(\theta), \theta)$
$\text{s.t.} \quad \omega^*(\theta) = \arg\min_{\omega} \mathcal{L}_{\text{train}}(\omega, \theta)$
其中 $\omega$ 是提示生成器参数， $\theta$ 是结构参数。

4. 🛠️ SPT-DARTS：改进的优化策略

为解决DARTS优化不稳定的问题，SPT引入了两项技术创新：

重参数化概率门：解耦前向传播与梯度计算，稳定训练。
架构一致性学习：通过一致性正则化，确保超网络与最终稀疏模型输出一致。

📊 实验性能与实证分析

小样本学习场景

在少样本设置下（每类仅16个样本），SPT在10个文本分类任务上平均表现优于全参数微调和其他PETuning方法，仅训练0.5%-1% 的参数。

全数据场景

即使在全数据设置下，SPT仍能保持竞争力，在RoBERTa-large模型上达到与全参数微调相当的性能，而参数效率提升超过90%。

提示层选择模式分析

通过分析学习到的提示层分布，发现了一些有趣模式：

嵌入层和底层Transformer（第0-4层）常被选为提示层，表明浅层表示对任务适应很重要。
中间层（第10-19层） 在RoBERTa-large中频繁被选，这些层可能包含丰富的语义信息。
最后四层往往被SPT丢弃，表明高层表示可能已足够任务特定。

🌐 实际应用场景

SPT特别适合以下场景：

🔧 资源受限环境：当GPU内存或存储有限时，SPT提供高效的参数利用。
🚀 快速模型适配：需要为多个下游任务快速定制模型的应用。
📚 小样本学习：标注数据稀缺的领域，如医疗文本、法律文档分析。

⚖️ 与传统方法对比

特性	传统提示微调	全参数微调	SPT
参数效率	高	低	非常高
性能	中等	高	接近全微调
自动化程度	低	高	高
训练稳定性	中等	高	高

💎 总结

SPT通过自动学习提示插入策略，解决了传统提示微调的关键瓶颈，在参数效率与性能之间取得了卓越平衡。其核心创新在于将提示层选择形式化为可优化问题，并通过双级优化和一致性学习确保训练稳定性。实验证明，SPT在全数据和小样本场景下均能实现强劲性能，为参数高效微调提供了新范式。