当前位置：首页 > news >正文

【lucene】向量搜索底层文件关系梳理

news 2025/7/28 12:22:20

下面用“一张图 + 两条流程”把 **`.vec` / `.vem` / `.vex`** 三件套以及 **HNSW vs 暴力搜索** 时如何配合这三个文件彻底讲清。

---

### 1️⃣ 三文件的角色与内容

| 文件 | 别称 | 存什么 | 大小特点 |
|---|---|---|---|
| `.vec` | Vector Data | **原始 float 向量**（维度×4 bytes，按 ord 连续排列） | 最大，> GB 级 |
| `.vem` | Vector Metadata | **索引目录**： - 维度、总数 - ord → byte offset 表 - 压缩信息 | 小，几十 KB |
| `.vex` | Vector Index (HNSW) | **纯图结构**： - 层数、入口节点 - 每层邻居列表（只存 ord） | 中等，几十 MB |

> 三者共同前缀是 `<segment>_<field>_Lucene99HnswVectorsFormat_X` 。

---

### 2️⃣ 文件之间的“指针”关系

```
.vex 节点 ord ───────────┐
│
.vem offsets[ord] ───────┘ → byte offset → .vec 读 float[]
```

- **`.vex`** 只给“节点号”
- **`.vem`** 把节点号翻译成 **`.vec` 中的精确字节地址**
- **`.vec`** 存放真正的向量值

---

### 3️⃣ 两种搜索如何使用三文件

#### ✅ HNSW 近似搜索流程
1. **入口**：`HnswGraphSearcher.search(...)`
2. **图遍历**：
- 从 `.vex` 读层、邻居 ord。
3. **按需解码向量**：
- 对每个候选 ord → 查 `.vem` 得 offset → seek `.vec` → 取 float[]。
4. **计算距离**：用 `RandomVectorScorer` 算分并收集。
> 只访问 **极少量** 向量和图节点，所以快。

#### ✅ 暴力精确搜索流程
1. **触发条件**：`k >= scorer.maxOrd()`
2. **线性扫描**：
- for (ord = 0 .. maxOrd-1)
3. **同样三文件**：
- 每个 ord → 查 `.vem` 得 offset → seek `.vec` → 取 float[]。
4. **无图参与**：**不读 `.vex`**，顺序读 `.vec`。
> 访问 **全部向量**，但借助 `.vem` 仍是 **O(1) 随机 seek**，而非顺序全读盘。

---

### 4️⃣ 一句话总结

- **`.vec`** 是“仓库”，**`.vem`** 是“索引目录”，**`.vex`** 是“楼层导航图”。
- **HNSW** 用三件套做“跳读”，**暴力搜索** 跳过 `.vex` 直接扫 `.vec`，但都靠 `.vem` 快速定位向量。

查看全文

http://www.dtcms.com/a/301662.html