当前位置: 首页 > news >正文

论文笔记:Repetition Improves Language Model Embeddings

ICLR 2025 6666

1 intro

  •  语言模型生成文本向量的传统方式,就是将文本输入到语言模型中,然后获取对应的隐状态,最终通过某种pooling策略得到文本向量。

  • 对于自回归语言模型而言,由于没有[CLS],所以没法采取基于[CLS]的pooling策略

    • 另外,由于前面的token看不到后面的token信息,没办法更好的抽取到全局信息,所以基于mean pooling的方式很容易出错

    • 而基于last token的mean pooling方式又很容易受到文本最后出现的那些token的影响,不够稳健

  • ——>目前自回归语言模型生成句向量的方式都比较特殊

    • mistral-7b-instruct会在文本后面插入一个[EOS],将这个位置对应的隐状态作为句向量

    • PromptEOL会构建一个prompt,“This sentence:[X] means in one word:”,让语言模型将文本信息浓缩到一个词,将下一个生成的token隐状态作为句向量

2 方法

  • 论文提出了echo embeddin

  • prompt应该是到最后一个冒号
    • 加粗的x的token就是text embedding
    • 这样就能保证第二次出现的文本的每个token都能见到原文本所有的内容

3 实验

相关文章:

  • 人工智能100问☞第48问:GPT是怎么生成文本的?
  • Attention Backend的认识
  • 【完整源码+数据集+部署教程】水位面图像分割系统源码和数据集:改进yolo11-EMSC
  • 【C++】unordered_map和unordered_set的使用
  • 物理学 | 本质 / 体系 / 应用 / 教育启示
  • Java 中 DataSource-数据源 的基础介绍
  • day33 MLP神经网络的训练
  • FPGA基础 -- Verilog HDL 结构风格的描述
  • 企业级 Vue3 项目 iframe 封装方案
  • Excel单元格数值统计 - 华为OD机试真题(Python题解)
  • 宇宙尽头是WPS之——【Excel】一个自动重新排序的宏
  • Vivaldi浏览器6.4.3160.42安装教程 - 64位下载安装步骤详解(包含历史版本)
  • “贴身日记”购物网站的设计与实现
  • Matlab自学笔记五十九:符号变量的代入和替代subs精讲
  • Flutter中将bytes转换成XFile对象上传
  • 8.TCP Server端实现
  • AWS ELB 可观测性最佳实践
  • 34. 在排序数组中查找元素的第一个和最后一个位置
  • 力扣刷题——长度最小的子数组
  • 在 Qt 开发中,.toLocal8Bit().constData() 和 .toUtf8()有什么区别
  • 海口网站建设网站制作/游戏推广平台有哪些
  • 网站建设和优化排名/学网络与新媒体后悔死了
  • 建设一个购物网站需要多少钱/武汉seo楚天
  • 网站 建设初步/济南百度竞价代运营
  • 新乡 网站建设/seo营销策划
  • 宝塔织梦网站建设/做网站需要多少钱 都包括什么