当前位置：首页 > news >正文

LiT and Lean: Distilling Listwise Rerankers intoEncoder-Decoder Models

news 2025/10/20 17:30:17

文章：ECIR 2025会议

一、动机

背景：利用LLMs强大的能力，将一个查询（query）和一组候选段落作为输入，整体考虑这些段落的相关性，并对它们进行排序。

先前的研究基础上进行扩展 [14,15]，这些研究使用 RankGPT 作为教师模型，将排序结果蒸馏到 listwise 学生重排序模型中。其中一个代表性模型是 RankZephyr [15]，它在排序效果上缩小了与 GPT-4 的差距，甚至在某些情况下超过了这个闭源的教师模型。

大型语言模型（LLMs）推动了listwise重排序研究的发展，并取得了令人印象深刻的最先进成果。然而，这些模型庞大的参数数量和有限的上下文长度限制了其在重排序任务中的效率。

二、解决方法

LiT5模型架构：

模型遵循 FiD 架构，编码器会将每个段落与查询（query）逐对分别编码。对于每个查询–段落对，输入提示（prompt）的格式如下：

以 Search Query: 开头，接着是查询内容；
然后是 Passage:，后面带有一个唯一的编号（例如 [1]、[2]）；
最后是该段落的文本；
提示的结尾是 Relevance Ranking:，用于引导模型生成排序结果。

解码器随后会对所有段落的编码表示进行处理，根据与查询的相关性，生成一个按编号排序的结果（从最相关到最不相关），例如：“3 1 2 ...”。

LiT5 模型的设计和创新，它通过采用 RankZephyr 作为教师模型，利用 FiD 架构 和 蒸馏技术，有效地训练了一个能够处理更多段落（最多100个段落）的高效排序模型，突破了传统模型在处理段落数量上的限制，并且能够节省计算成本。

三、训练模型

数据集：

MS MARCO v1 passage ranking 数据集中随机抽取了 20K 个查询，对于每个查询，我们从 MS MARCO v1 和 v2 数据集中各自检索了 100 个段落。

实验结果：

http://www.dtcms.com/a/116853.html

相关文章：

佳能imageRUNNER 2935复印机调整休眠时间方法

Meta LLaMA 4：对抗 GPT-4o 与 Claude 的开源王牌

【教学类-102-05】蛋糕剪纸图案（留白边、沿线剪）04——Python白色（255）图片转为透明png再制作“点状边框和虚线边框”

BGP路由协议之属性1

手搓多模态-06 数据预处理

硬件设计中串联电阻的作用、阻值范围及选取方法详解

如何正确使用 `apiStore` 进行 API 管理

16-产品经理-需求的评审

Nmap全脚本使用指南！NSE脚本全详细教程！Kali Linux教程！（七）

35.[前端开发-JavaScript基础]Day12-for循环中变量-华为商城-商品列表-轮播图

心律异常检测

以UE5第三方插件库为基础，编写自己的第三方库插件，并且能够在运行时复制.dll

【内网渗透】Linux上线CS学习-CrossC2插件

Hybrid 架构的概念，以及如何优化Hybrid 通信方案，提升页面加载速度和渲染性能

【c++深入系列】：类和对象详解（下）

SpringMVC的数据响应

13-Leveldb快照原理及其实现

嵌入式工程师多线程编程（四）裸机编程实现多任务调度

2026考研数学张宇武忠祥复习视频课，高数基础班+讲义PDF

FreeCAD 使用的是 GNU Lesser General Public License (LGPL) 许可证

C# Winform 入门（14）之如何使用线程池

Kube Scheduler 可观测性最佳实践

【根据源码分析Vue 组件中 props的实现原理】

TA学习之路——1.5纹理基础

人工智能基础知识详解：从概念到前沿技术与应用

RAG中构建个人知识库

第3课：MCP协议接口定义与开发实践

医学图像分割效率大幅提升！U-Net架构升级，助力精度提升5%！

iPaaS集成平台使用的最佳实践：开发、测试和生产部署

rhcsa第三次作业