当前位置: 首页 > news >正文

【Elasticsearch】BM25的discount_overlaps参数

`discount_overlaps` 是 Elasticsearch/Lucene 相似度模型(Similarity)里的一个布尔参数,用来决定:

> 在计算文档长度归一化因子(norm)时,是否忽略“重叠 token”(即位置增量 positionIncrement=0 的 token)。

---

✅ 默认值与含义

参数值 含义 

`true`(默认) 重叠 token 不计入文档长度,不影响 norm 

`false` 重叠 token 会计入文档长度,参与 norm 计算 

---

✅ 使用场景举例

- 如果你使用了 同义词过滤器(synonym filter),多个同义词可能会落在 同一位置,这些 token 的 `positionIncrement=0`。

- 默认 `discount_overlaps=true` 会让这些 token 不影响文档长度,从而避免重复同义词“人为”拉长文档。

- 如果你希望这些 token 也参与长度计算,可设为 `false`。

---

✅ 配置示例(BM25)

```json

PUT /my_index

{

  "settings": {

    "index": {

      "similarity": {

        "my_bm25": {

          "type": "BM25",

          "k1": 1.2,

          "b": 0.75,

          "discount_overlaps": false

        }

      }

    }

  },

  "mappings": {

    "properties": {

      "title": {

        "type": "text",

        "similarity": "my_bm25"

      }

    }

  }

}

```

http://www.dtcms.com/a/291418.html

相关文章:

  • 卷积神经网络(CNN)原理
  • 零拷贝技术(Zero-Copy)
  • OneCode 3.0 @APIEventAnnotation 注解速查手册
  • 从 Hi3861 平台到 WS63 星闪平台的程序移植全解析
  • 网络编程之 UDP:用户数据报协议详解与实战
  • 二分查找:区间内查询数字的频率
  • 网络协议(三)网络层 IPv4、CIDR(使用子网掩码进行网络划分)、NAT在私网划分中的应用
  • 大模型——上下文工程 (Context Engineering) – 现代 AI 系统的架构基础
  • c语言进阶 自定义类型 枚举,联合
  • 【LeetCode 热题 100】208. 实现 Trie (前缀树)
  • Linux下SPI设备驱动开发
  • 1.Java中的异常有哪些?异常处理机制呢?
  • C# 异常处理
  • 统计与大数据分析专业转型金融行业指南
  • makefile-- 其他函数
  • Linux PCI总线子系统
  • 网络基础DAY15-RSTP
  • OpenGL鼠标控制沿着指定轴旋转
  • linux --frp内网穿透
  • 低速信号设计之 RMII
  • 服务器系统时间不准确怎么办?
  • C++ 中的默认构造函数:非必要,不提供
  • 缓存数组,并遍历循环读取数组
  • springboot实战篇1
  • Windows VS2019 编译 Apache Thrift 0.15.0
  • DigitalOcean 云平台上线 AMD MI325X GPU Droplet 服务器
  • 如何编写假设和约束---SRS软件需求规格指南系列
  • accelerate 在Pycham中执行的设置方法
  • C语言字符串相关函数
  • 【网络编程】网络传输-protobuf