当前位置：首页 > news >正文

理性地倾听与表达：检索算法的语言学改进

news 2025/7/1 16:55:42

论文标题

Rational Retrieval Acts: Leveraging Pragmatic Reasoning to Improve Sparse Retrieval

论文地址

https://arxiv.org/pdf/2505.03676

代码地址

https://github.com/arthur-75/Rational-Retrieval-Acts

作者背景

巴黎萨克雷大学，索邦大学，法国国家科学研究中心

动机

文档检索算法对用户query和候选Document进行匹配打分，从而挑选出能够回答用户问题的信息。但当前的q-D匹配算法一般只考虑词语浅层语义，缺乏对用户意图的深层理解，于是在实践中我们往往发现：再面对用户的模糊、复杂或措辞多变的问题时，难以精准找到合理的文档

对此，作者利用语言学中“理性言语行为”的思想，提出了一种迭代算法，能够模拟说话人与倾听者互相揣摩对方意图的行为，从而提高检索算法的准确性

理性言语行为

理性言语行为（Rational Speech Act model, RSA）的核心思想是：

说话者和听话者都是理性的个体，他们在交流中会基于对彼此知识、目标和意图的推测，做出最合适的语言选择和解释

RSA 是一种概率模型，它将言语交流建模为一种贝叶斯推理过程，包括以下三类参与者：

字面听者 L0：根据语言的语义直接解释话语
语用说话者 S1：根据听者可能的理解方式，选择最符合自己意图的表达
语用听者 L1：观察S1的话语，推断其背后可能的意图

从L0到S1再到L1，这个过程可以不断递归地迭代。但一般情况下只迭代一轮

本文方法

本文提出理性检索（Rational Retrieval Acts，RRA），将语言学中的理性言语行为模型引入稀疏检索，具体过程如下：

初始词典表示：首先从一个基础的稀疏检索模型出发，获取每个词和文档的基础相关性权重w(t,d)，并对其做简单的平滑转换得到L(t,d)，确保L>0
字面听者L0建模：根据单个词来判断相关文档分布，基于初始词典值的归一化分数构建，公式如下，其中P(d)是文档先验概率
语用说话人S1建模：假设理性说话人想要的信息在文档d中，那么它需要使用让文档d被选中概率最大的表达，即：

在这里插入图片描述

其中α是调节语用程度的超参数，α > 1时会使说话人更加偏好概率大的词， α → 0时则趋向于均匀分布（完全不讲究用词，随便表达），此公式精准刻画了理性说话人：用户具备不同词语和不同文档匹配效果的全局认知，然后从整个文档集合中挑选更能选中目标文档d的词汇

语用听者L1建模：与L0类似，只不过初始字典分数被替换成了理性说话人视角的词语-文档匹配分数

在这里插入图片描述

文档表示与检索打分：经过上述推理，我们获得了用户query中每个词汇t，相对于所有候选文档的相关性打分L1，并且这个分数是经过语用校正的。由于L1矩阵的规模很大，作者还对所有“词t未出现于文档d中”的情况进行了特殊处理：使用词t与文档d各自的全局因子相乘作为近似表示
最后，将L1与用户query中的词汇分数分布相乘，便可得到最终的检索得得分。整个流程如下图所示：

在这里插入图片描述

实验结果

一、引入RSA前后效果对比

将RSA融合到不同稀疏检索模型中的效果，包括SPLADEv3（训练于MS MARCO的神经稀疏模型）、SPARTA（BERT派生的稀疏模型）、DeepImpact、UniCOIL等（都没有拿测试数据微调），以及传统的BM25，采用nDCG@10指标进行评价，结果如下：

在这里插入图片描述

实验结果表明，引入RSA后，这些稀疏模型在所有数据集上的排序质量都有所提高。不过其中BM25上的提高较小，只有0.9，作者认为这是由于其本身已经通过IDF考虑了部分全局信息

二、与SOTA模型对比

选择上面实验中效果最好的Splade+RRA方案作为实验组，在BEIR基准上与其他增强基线策略进行对比，结果如下：

在这里插入图片描述

可见实验组的平均得分最高，RRA的引入使Splade方案提升了1个点

三、语用强度α影响分析

作者在不同数据集上，测试了不同α参数下Splade+RRA策略的最终效果：

在这里插入图片描述

实验表明，当α太高或太低时性能都会下降（过高会使说话人过于偏执只选极少数词，过低则近似随机选词），不同数据集的最佳值略有不同，实践中可以先采样一些样本或生成伪数据来对α进行调试

http://www.dtcms.com/a/181920.html

相关文章：

SpringBoot学习(上) , SpringBoot项目的创建(IDEA2024版本)

[架构之美]IntelliJ IDEA创建Maven项目全流程（十四）

OpenVLA:开源的视觉-语言-动作模型

torch.nn.init.uniform_

大模型微调终极方案：LoRA、QLoRA原理详解与LLaMA-Factory、Xtuner实战对比

数仓-可累计，半累加，不可累加指标，是什么，举例说明及解决方案

前端项目中单元测试与集成测试的管理实践

【数据结构】子串、前缀

QT Creator配置Kit

Windows系统Jenkins企业级实战

大模型Embedding模型介绍与使用

【生命周期分析（Life Cycle Assessment: LCA）】基于OpenLCA、GREET、R语言的生命周期评价方法、模型构建及典型案例应用

Redisson 看门狗机制

【大数据技术-HBase-关于Hmaster、RegionServer、Region等组件功能和读写流程总结】

第五天车载系统安全（入侵检测、OTA安全）数据加密（TLS/SSL、国密算法）

Taccel：一个高性能的GPU加速视触觉机器人模拟平台

用纯HTML和CSS仿写知乎登录页面

图像卷积初识

操作系统实验习题解析上篇

中国古代史1

关于ffmpeg的简介和使用总结

django的权限角色管理(RBAC)

单片机-STM32部分：10-1、485

TIME - MoE 模型代码 3.4——Time-MoE-main/time_moe/models/modeling_time_moe.py

【并发编程】基于 Redis 手写分布式锁

鸿蒙系统使用ArkTS开发语言支持身份证阅读器、社保卡读卡器等调用二次开发SDK

VBA将PDF文档内容逐行写入Excel

OpenLayers根据任意数量控制点绘制贝塞尔曲线

Lua—元表（Metatable)

c++——二叉树进阶