当前位置: 首页 > news >正文

Prompt-tuning、Prefix-tuning、P-tuning/v2

Prompt-tuning

在输入端人工的加入硬提示或者,在模型中加入软提示

软提示伪代码

Prefix-tuning

在Prompt-tunning的基础上,embeding之后加入一个MLP层,在编码器部分加上一个Past_KV

P-tuning

在Prompt-tunning的基础上,embeding之后加入一个MLP层或者LSTM

P-tuning V2

在Prompt-tunning的基础上,在编码器部分加上一个Past_KV

MLP

多个linear  提高模型的非线性能力

# 伪代码表示
class MLP(nn.Module):def __init__(self, hidden_size):super().__init__()# 第一个Linear层:上投影,扩大维度self.linear1 = nn.Linear(hidden_size, 4 * hidden_size)# 激活函数,引入非线性self.activation = nn.GELU()# 第二个Linear层:下投影,恢复维度self.linear2 = nn.Linear(4 * hidden_size, hidden_size)def forward(self, x):x = self.linear1(x)  # 第一次线性变换x = self.activation(x) # 非线性变换x = self.linear2(x)  # 第二次线性变换return x# 伪代码表示
class MLP(nn.Module):def __init__(self, hidden_size):super().__init__()# 第一个Linear层:上投影,扩大维度self.linear1 = nn.Linear(hidden_size, 4 * hidden_size)# 激活函数,引入非线性self.activation = nn.GELU()# 第二个Linear层:下投影,恢复维度self.linear2 = nn.Linear(4 * hidden_size, hidden_size)def forward(self, x):x = self.linear1(x)  # 第一次线性变换x = self.activation(x) # 非线性变换x = self.linear2(x)  # 第二次线性变换return x

Past Key Values  == KVCatch

这是一个非常好的问题,它触及了同一个概念在不同语境下的术语使用。

简单直接的回答是:Past Key Values 和 KVCache 指的是同一个东西,但它们是从略微不同的角度来描述它的。

我们可以把它们看作是 “内容”和“容器” 的关系。


详细解释

1. Past Key Values(过去的键值对)
  • 视角内容导向。这个术语描述了缓存里存储的是什么

  • 是什么:它指的是在自回归生成过程中,为之前所有时间步(tokens)计算并保存下来的 Key 向量和 Value 向量

  • 强调重点:数据的本质和用途。这些保存下来的Key和Value是来自“过去”的,用于与“当前”的Query计算注意力。

2. KV Cache(KV 缓存)
  • 视角机制/结构导向。这个术语描述了实现加速的技术和存储结构

  • 是什么:它是为了存储 Past Key Values 而分配的一块内存空间或一个数据结构(在代码中通常是一个张量元组或一个特定的缓存对象)。

  • 强调重点:实现的机制和性能优化。“缓存”这个词本身就暗示了其功能——通过暂存计算结果来避免重复计算,从而提升速度。

http://www.dtcms.com/a/466960.html

相关文章:

  • 青岛胶南市城乡建设局网站页面效果图
  • vscode连接wsl 连接本地项目
  • 掌握定时器基于GD32F407VE的天空星的配置
  • 补充:计算点到原点的距离。(new)
  • 北京网站建设 专业10年郑州艾特网站建设公司
  • 陕西做网站的公司在哪江苏建设行业证书编号查询网站
  • 元服务发布准备工作
  • 【2025-系统规划与管理师】第七章:网络环境规划
  • 固态硬盘保护器Romex Software
  • 如室设计网站东莞房价多少
  • 创建网站超市百度找不到 网站
  • 超参数优化利器:GridSearchCV 详解与实战指南
  • 网站建设合同需要注意什么创意赣州网站建设
  • 从 Wonderware 到 TDengine:大理卷烟厂的国产化转型之路
  • Redis-Bitmaps、HyperLogLog、GEO类型
  • 一级a做爰片i网站商城网站前期推广
  • Golang的结构体和反射
  • 网站点击量软件古腾堡布局的网站
  • 网站title优化手机网页页面设计模板
  • 湛江正规网站制作方案网站建设五项基本原则
  • 【Vue】——路由
  • 160 国际英文网站app开发公司哪里好
  • 企业网站优化哪家好陕西住房与城乡建设部网站
  • 小模型大智慧:新一代轻量化语言模型全解析
  • 网站首页背景代码wordpress幻灯片不显示
  • 37.2多点电容触摸屏实验(详细代码)_csdn
  • 了解学习MySQL数据库基础
  • 做网站怎么选服务器服务器网站怎么做
  • 长沙微信网站开发学习网页制作学什么
  • 超越RTL的系统设计:ESL设计的新范式与CIRCT的桥梁作用