当前位置: 首页 > news >正文

论文略读:Prefix-Tuning: Optimizing Continuous Prompts for Generation

2021 ACL

  • 固定预训练LM,为LM添加可训练,任务特定的前缀
    • 这样就可以为不同任务保存不同的前缀
    • 这种前缀可以看成连续可微的soft prompt,相比于离散的token,更好优化,效果更好
  • 训练的时候只需要更新prefix部分的参数,固定LM部分的参数即可

  • 对于自回归模型,在句子前面添加前缀,得到 z = [PREFIX; x; y]

  • 对于encoder-decoder模型:Encoder和Decoder都增加了前缀,得到 z = [PREFIX; x; PREFIX0; y]
    • Encoder端增加前缀是为了引导输入部分的编码
    • Decoder 端增加前缀是为了引导后续token的生成
    • Prefix-tuning略优于Infix-tuning
      • Infix-tuning形式为 [x; INFIX; y]
      • Prefix-tuning形式为 [PREFIX; x; y]
  • 直接学习参数效果不好,需要使用MLP对Pθ进行reparameter修正
    • Pθ[i,:] = MLP(Pθ'[i,:])
http://www.dtcms.com/a/269604.html

相关文章:

  • Git 安装避坑指南:从环境检查到高级配置的全流程解析
  • EXCEL转html,含图片
  • Linux下SPHinXsys源码编译安装及使用
  • Flutter基础(前端教程③-跳转)
  • Wend看源码-RAGFlow(上)
  • nvm npm nrm 使用教程
  • 台式电脑如何连wifi 快速连接方法
  • synchronized 的使用和特性
  • 算法学习笔记:11.冒泡排序——从原理到实战,涵盖 LeetCode 与考研 408 例题
  • VBA经典应用69例应用8:取消预设任务
  • (三)C#使用yolo
  • 在教育领域中,如何通过VRM分片错序对视频进行加密?
  • git学习:首次创建仓库
  • ubuntu 运行脚本打开WIFI adb
  • YOLO在自动驾驶交通标志识别中的应用与优化【附代码】
  • Qt:图片切割
  • 代码详细注释:演示如何使用dup()系统调用复制文件描述符
  • Linux操作系统:再谈虚拟地址空间
  • const char* 、char*和char[]的区别
  • MySQL数据库访问(C/C++)
  • 恒创科技:香港站群服务器做seo站群优化效果如何
  • 2025年数据挖掘与计算机科学国际会议 (DMCS 2025)
  • 基于Docker Compose部署Traccar容器与主机MySQL的完整指南
  • 专题:2025数据资产AI价值化:安全、战略与应用报告|附400+份报告PDF、原数据表汇总下载
  • uniapp 监听物理返回按钮
  • 分水岭算法:图像分割的浸水原理
  • 视频号账号矩阵运营中定制开发开源 AI 智能名片 S2B2C 商城小程序的赋能研究
  • 【王树森推荐系统】召回11:地理位置召回、作者召回、缓存召回
  • 【Rust base64库】Rust bas64编码解码详细解析与应用实战
  • ​​​​​​​营销费用管理,如何驱动快消企业营销投资战略升级