当前位置: 首页 > news >正文

理性地倾听与表达:检索算法的语言学改进

论文标题

Rational Retrieval Acts: Leveraging Pragmatic Reasoning to Improve Sparse Retrieval

论文地址

https://arxiv.org/pdf/2505.03676

代码地址

https://github.com/arthur-75/Rational-Retrieval-Acts

作者背景

巴黎萨克雷大学,索邦大学,法国国家科学研究中心

动机

文档检索算法对用户query和候选Document进行匹配打分,从而挑选出能够回答用户问题的信息。但当前的q-D匹配算法一般只考虑词语浅层语义,缺乏对用户意图的深层理解,于是在实践中我们往往发现:再面对用户的模糊、复杂或措辞多变的问题时,难以精准找到合理的文档

对此,作者利用语言学中“理性言语行为”的思想,提出了一种迭代算法,能够模拟说话人与倾听者互相揣摩对方意图的行为,从而提高检索算法的准确性

理性言语行为

理性言语行为(Rational Speech Act model, RSA)的核心思想是:

说话者和听话者都是理性的个体,他们在交流中会基于对彼此知识、目标和意图的推测,做出最合适的语言选择和解释

RSA 是一种概率模型,它将言语交流建模为一种贝叶斯推理过程,包括以下三类参与者:

  1. 字面听者 L0​:根据语言的语义直接解释话语
  2. 语用说话者 S1:根据听者可能的理解方式,选择最符合自己意图的表达
  3. 语用听者 L1:观察S1​的话语,推断其背后可能的意图

从L0到S1再到L1,这个过程可以不断递归地迭代。但一般情况下只迭代一轮

本文方法

本文提出理性检索(Rational Retrieval Acts,RRA),将语言学中的理性言语行为模型引入稀疏检索,具体过程如下:

  1. 初始词典表示:首先从一个基础的稀疏检索模型出发,获取每个词和文档的基础相关性权重w(t,d),并对其做简单的平滑转换得到L(t,d),确保L>0

  2. 字面听者L0建模:根据单个词来判断相关文档分布,基于初始词典值的归一化分数构建,公式如下,其中P(d)是文档先验概率
    在这里插入图片描述

  3. 语用说话人S1建模:假设理性说话人想要的信息在文档d中,那么它需要使用让文档d被选中概率最大的表达,即:

在这里插入图片描述

其中α是调节语用程度的超参数,α > 1时会使说话人更加偏好概率大的词, α → 0时则趋向于均匀分布(完全不讲究用词,随便表达),此公式精准刻画了理性说话人:用户具备不同词语和不同文档匹配效果的全局认知,然后从整个文档集合中挑选更能选中目标文档d的词汇

  1. 语用听者L1建模:与L0类似,只不过初始字典分数被替换成了理性说话人视角的词语-文档匹配分数

在这里插入图片描述

  1. 文档表示与检索打分:经过上述推理,我们获得了用户query中每个词汇t,相对于所有候选文档的相关性打分L1,并且这个分数是经过语用校正的。由于L1矩阵的规模很大,作者还对所有“词t未出现于文档d中”的情况进行了特殊处理:使用词t与文档d各自的全局因子相乘作为近似表示
    最后,将L1与用户query中的词汇分数分布相乘,便可得到最终的检索得得分。整个流程如下图所示:

在这里插入图片描述

实验结果

一、引入RSA前后效果对比

将RSA融合到不同稀疏检索模型中的效果,包括SPLADEv3(训练于MS MARCO的神经稀疏模型)、SPARTA(BERT派生的稀疏模型)、DeepImpact、UniCOIL等(都没有拿测试数据微调),以及传统的BM25,采用nDCG@10指标进行评价,结果如下:

在这里插入图片描述

实验结果表明,引入RSA后,这些稀疏模型在所有数据集上的排序质量都有所提高。不过其中BM25上的提高较小,只有0.9,作者认为这是由于其本身已经通过IDF考虑了部分全局信息

二、与SOTA模型对比

选择上面实验中效果最好的Splade+RRA方案作为实验组,在BEIR基准上与其他增强基线策略进行对比,结果如下:

在这里插入图片描述

可见实验组的平均得分最高,RRA的引入使Splade方案提升了1个点

三、语用强度α影响分析

作者在不同数据集上,测试了不同α参数下Splade+RRA策略的最终效果:

在这里插入图片描述

实验表明,当α太高或太低时性能都会下降(过高会使说话人过于偏执只选极少数词,过低则近似随机选词),不同数据集的最佳值略有不同,实践中可以先采样一些样本或生成伪数据来对α进行调试

相关文章:

  • SpringBoot学习(上) , SpringBoot项目的创建(IDEA2024版本)
  • [架构之美]IntelliJ IDEA创建Maven项目全流程(十四)
  • OpenVLA:开源的视觉-语言-动作模型
  • torch.nn.init.uniform_
  • 大模型微调终极方案:LoRA、QLoRA原理详解与LLaMA-Factory、Xtuner实战对比
  • 数仓-可累计,半累加,不可累加指标,是什么,举例说明及解决方案
  • 前端项目中单元测试与集成测试的管理实践
  • 【数据结构】子串、前缀
  • QT Creator配置Kit
  • Windows系统Jenkins企业级实战
  • 大模型Embedding模型介绍与使用
  • 【生命周期分析(Life Cycle Assessment: LCA)】基于OpenLCA、GREET、R语言的生命周期评价方法、模型构建及典型案例应用
  • Redisson 看门狗机制
  • 【大数据技术-HBase-关于Hmaster、RegionServer、Region等组件功能和读写流程总结】
  • 第五天 车载系统安全(入侵检测、OTA安全) 数据加密(TLS/SSL、国密算法)
  • Taccel:一个高性能的GPU加速视触觉机器人模拟平台
  • 用纯HTML和CSS仿写知乎登录页面
  • 图像卷积初识
  • 操作系统实验习题解析 上篇
  • 中国古代史1
  • 视频丨雄姿英发!中国仪仗队步入莫斯科红场
  • 图忆|红场阅兵:俄罗斯30年来的卫国战争胜利日阅兵式
  • 上海:企业招用高校毕业生可享受1500元/人一次性扩岗补助
  • 毕赣新作《狂野时代》入围戛纳主竞赛单元,易烊千玺舒淇主演
  • 招行:拟出资150亿元全资发起设立金融资产投资公司
  • 5月12日至13日北京禁飞“低慢小”航空器