当前位置: 首页 > news >正文

论文笔记:Scaling Sentence Embeddings with Large Language Models

2024 ACL findings

1 intro

  • 直接利用LLMs生成句子嵌入面临两个主要挑战
    • LLMs作为自回归模型生成的是文本而非向量,因此需要将输出向量化
    • 如何有效地将上下文学习的能力融入句子嵌入中也是一个关键问题
  • 论文调查了当前LLMs在句子嵌入中的能力
    • 如何使用LLMs表示句子嵌入,并且提示工程是否有效?
      • 设计了一套prompt
    • 上下文学习是否能提升句子嵌入的质量?
      • ——>通过添加定义句子和相应的词作为示例进行上下文学习,性能可以进一步提高
    • 当模型参数超过数十亿时,参数规模是否依然有效?
      • 从数百万个参数到数十亿个参数的过渡,能够提高STS任务的表现。
      • 然而,继续扩大参数规模可能不会带来更多的改善。
        • 即使是上下文学习,66B的OPT在STS任务上仍然不如6.7B的OPT
      • 尽管如此,扩大模型规模能提高迁移任务的性能。
        • 具有数十亿参数的LLMs在没有任何微调的情况下,仍展现出强大的性能,甚至达到了最新的状态。
    • 将当前对比学习框架融入LLMs后能取得哪些改进?
      • 通过采用对比学习可以进一步提高性能。
      • 通过采用高效的微调技术,LLMs即使在有限计算资源下,也能够在STS任务上取得最先进的成果
  • 通过评估LLaMA和OPT在语义文本相似度(STS)任务和迁移任务上的表现,进行系统性研究

2 方法

2.1 使用LLMs表示句子

  • 提取最后一个token的隐藏向量作为句子嵌入
    • 把bert风格的prompt(“This sentence: “ [text] ” means [MASK]”)改成OPT风格的(This sentence: “ [text] ” means in one word: “)

2.2 使用高效微调的对比学习

  • 还利用对比学习来提升LLMs的句子嵌入能力,已被证明是一种高效的学习方法
    • 这里使用了有监督对比学习
      • 每个句子x_i都有对应的正面句子x_i^+和硬负面句子x_i^-
      • l是sequence length

3 实验

相关文章:

  • 如何在 Vue 项目中为 `el-pagination` 设置中文
  • Sky Hackathon 清水湾的水 AI美食助手
  • 一键快速打包提交发布命令行工具
  • 【报错解决】vue打开界面报错Uncaught SecurityError: Failed to construct ‘WebSocket‘
  • zabbix排障-zabbix监控的主机出现可用性灰色或者红色问题
  • 欢乐力扣:快乐数
  • MySQL 8.0 社区版安装与配置全流程指南(Windows平台)
  • linux-多进程基础(1) 程序、进程、多道程序、并发与并行、进程相关命令,fork
  • 详细解析d3dx9_27.dll丢失怎么办?如何快速修复d3dx9_27.dll
  • 四元数 欧拉角
  • 【AI+智造】DeepSeek价值重构:当采购与物控遇上数字化转型的化学反应
  • 【SpringBoot】【JWT】0.12.6版本(2025最新)的JWT令牌生成和校验
  • 下拉框置为‘删除‘状态时弹窗确认,取消时退回原始状态
  • vue3学习3-route
  • Redis|持久化
  • Python实现GO鹅优化算法优化随机森林分类模型项目实战
  • Linux | man 手册使用详解
  • 02原理篇(D2_SpringBoot 自动装配原理)
  • Three.js 快速入门教程【八】常见材质类型
  • python采集京东商品详情API接口系列,json数据示例返回
  • 网站备案有什么要求吗/沧州百度推广公司
  • wordpress 有什么用/济南做seo外包
  • web网站开发毕设/郑州seo技术
  • 北京百度seo排名/西安seo外包优化
  • 超级工程网站建设上海中心大厦/沈阳网站建设
  • 建设网站后如何做后台/广州百度推广电话