当前位置：首页 > news >正文

论文笔记：Repetition Improves Language Model Embeddings

news 2025/9/24 1:39:09

ICLR 2025 6666

1 intro

语言模型生成文本向量的传统方式，就是将文本输入到语言模型中，然后获取对应的隐状态，最终通过某种pooling策略得到文本向量。
对于自回归语言模型而言，由于没有[CLS]，所以没法采取基于[CLS]的pooling策略
- 另外，由于前面的token看不到后面的token信息，没办法更好的抽取到全局信息，所以基于mean pooling的方式很容易出错
- 而基于last token的mean pooling方式又很容易受到文本最后出现的那些token的影响，不够稳健
——>目前自回归语言模型生成句向量的方式都比较特殊
- mistral-7b-instruct会在文本后面插入一个[EOS]，将这个位置对应的隐状态作为句向量
- PromptEOL会构建一个prompt，“This sentence:[X] means in one word:”，让语言模型将文本信息浓缩到一个词，将下一个生成的token隐状态作为句向量

2 方法

论文提出了echo embeddin

prompt应该是到最后一个冒号
- 加粗的x的token就是text embedding
- 这样就能保证第二次出现的文本的每个token都能见到原文本所有的内容

3 实验

http://www.dtcms.com/a/252604.html

相关文章：

人工智能100问☞第48问：GPT是怎么生成文本的？

Attention Backend的认识

【完整源码+数据集+部署教程】水位面图像分割系统源码和数据集：改进yolo11-EMSC

【C++】unordered_map和unordered_set的使用

物理学 | 本质 / 体系 / 应用 / 教育启示

Java 中 DataSource-数据源的基础介绍

day33 MLP神经网络的训练

FPGA基础 -- Verilog HDL 结构风格的描述

企业级 Vue3 项目 iframe 封装方案

Excel单元格数值统计 - 华为OD机试真题(Python题解)

宇宙尽头是WPS之——【Excel】一个自动重新排序的宏

Vivaldi浏览器6.4.3160.42安装教程 - 64位下载安装步骤详解（包含历史版本）

“贴身日记”购物网站的设计与实现

Matlab自学笔记五十九：符号变量的代入和替代subs精讲

Flutter中将bytes转换成XFile对象上传

8.TCP Server端实现

AWS ELB 可观测性最佳实践

34. 在排序数组中查找元素的第一个和最后一个位置

力扣刷题——长度最小的子数组

在 Qt 开发中，.toLocal8Bit().constData() 和 .toUtf8()有什么区别

【React源码解析】初识JSX

You Only Look Once Unified, Real-Time Object Detection论文笔记

django ReturnDict 如何修改内容

C++（从C到C++）

Java系统开发：前端与后端的协同开发实践

老项目重构难题破解：飞算 JavaAI 如何实现技术升级突围

数字ic后端设计从入门到精通7（含fusion compiler, tcl教学）sta时序分析

Java基础学习-多线程

python+uniapp基于微信小程序健康管理系统

数字电路研究的是直流信号还是交流信号