当前位置: 首页 > news >正文

LiT and Lean: Distilling Listwise Rerankers intoEncoder-Decoder Models

文章:ECIR 2025会议

一、动机

背景:利用LLMs强大的能力,将一个查询(query)和一组候选段落作为输入,整体考虑这些段落的相关性,并对它们进行排序。

先前的研究基础上进行扩展 [14,15],这些研究使用 RankGPT 作为教师模型,将排序结果蒸馏到 listwise 学生重排序模型中。其中一个代表性模型是 RankZephyr [15],它在排序效果上缩小了与 GPT-4 的差距,甚至在某些情况下超过了这个闭源的教师模型。

大型语言模型(LLMs)推动了listwise重排序研究的发展,并取得了令人印象深刻的最先进成果。然而,这些模型庞大的参数数量和有限的上下文长度限制了其在重排序任务中的效率。

二、解决方法

LiT5模型架构:

 

模型遵循 FiD 架构,编码器会将每个段落与查询(query)逐对分别编码。对于每个查询–段落对,输入提示(prompt)的格式如下:

  • Search Query: 开头,接着是查询内容;

  • 然后是 Passage:,后面带有一个唯一的编号(例如 [1]、[2]);

  • 最后是该段落的文本;

  • 提示的结尾是 Relevance Ranking:,用于引导模型生成排序结果。

解码器随后会对所有段落的编码表示进行处理,根据与查询的相关性,生成一个按编号排序的结果(从最相关到最不相关),例如:“3 1 2 ...”。

LiT5 模型的设计和创新,它通过采用 RankZephyr 作为教师模型,利用 FiD 架构蒸馏技术,有效地训练了一个能够处理更多段落(最多100个段落)的高效排序模型,突破了传统模型在处理段落数量上的限制,并且能够节省计算成本。

三、训练模型

数据集:

 MS MARCO v1 passage ranking 数据集中随机抽取了 20K 个查询,对于每个查询,我们从 MS MARCO v1 和 v2 数据集中各自检索了 100 个段落。

实验结果:

相关文章:

  • 佳能imageRUNNER 2935复印机调整休眠时间方法
  • Meta LLaMA 4:对抗 GPT-4o 与 Claude 的开源王牌
  • 【教学类-102-05】蛋糕剪纸图案(留白边、沿线剪)04——Python白色(255)图片转为透明png再制作“点状边框和虚线边框”
  • BGP路由协议之属性1
  • 手搓多模态-06 数据预处理
  • 硬件设计中串联电阻的作用、阻值范围及选取方法详解
  • 如何正确使用 `apiStore` 进行 API 管理
  • 16-产品经理-需求的评审
  • Nmap全脚本使用指南!NSE脚本全详细教程!Kali Linux教程!(七)
  • 35.[前端开发-JavaScript基础]Day12-for循环中变量-华为商城-商品列表-轮播图
  • 心律异常检测
  • 以UE5第三方插件库为基础,编写自己的第三方库插件,并且能够在运行时复制.dll
  • 【内网渗透】Linux上线CS学习-CrossC2插件
  • Hybrid 架构的概念,以及如何优化Hybrid 通信方案,提升页面加载速度和渲染性能
  • 【c++深入系列】:类和对象详解(下)
  • SpringMVC的数据响应
  • 13-Leveldb快照原理及其实现
  • 嵌入式工程师多线程编程(四)裸机编程实现多任务调度
  • 2026考研数学张宇武忠祥复习视频课,高数基础班+讲义PDF
  • FreeCAD 使用的是 GNU Lesser General Public License (LGPL) 许可证
  • 网站搜索条怎么做/网络seo外包
  • 学徒制下的课程网站建设/百度平台推广
  • 学网站开发的软件/关键词下载
  • 鹏鹞网站页面代码/seo公司 杭州
  • 遵义公司做网站找哪个公司好/谷歌推广效果怎么样
  • 在线名片制作网站开发/seo优化seo外包