当前位置：首页 > news >正文

【Lucene】架构

news 2025/10/13 13:41:24

Lucene 的架构可以简单拆成 “两大流程、六大模块、N 个核心类”。

下面用一张脑图思路 + 关键类清单帮你一次理清。

---

一、两大流程

阶段关键动作涉及核心类

索引流程分词 → 写倒排 → 刷盘/合并 `IndexWriter` `Analyzer` `Document` `Field`

搜索流程解析查询 → 检索 → 打分 → 收集结果 `IndexSearcher` `Query*` `Collector` `ScoreDoc`

---

二、六大模块 & 代表类

模块职责重要类 / 接口

analysis 把文本切成 Term（分词、过滤、大小写、停用词） `Analyzer` `Tokenizer` `TokenFilter`

document 承载数据的“一行记录” `Document` `Field` `TextField` `StringField`

index 写：建索引、刷盘、合并；读：读倒排、正排、向量 `IndexWriter` `IndexWriterConfig` `DirectoryReader` `LeafReader`

store 抽象磁盘/内存目录，管理索引文件 `Directory` `FSDirectory` `RAMDirectory`

search 查询解析、打分、排序、翻页、聚合 `IndexSearcher` `Query` `TermQuery` `BooleanQuery` `TopDocsCollector`

util 辅助数据结构 `PriorityQueue` `FixedBitSet`

---

三、核心类速查表（按使用频率）

类一句话定位

`IndexWriter` 写索引的入口，负责 `addDocument/updateDocument/forceMerge`

`IndexWriterConfig` 控制分词器、合并策略、Codec 等所有写参数

`Analyzer` 把原始文本变成 Token，常用实现 `StandardAnalyzer`

`Document` 一条“记录”，内部由多个 `Field` 组成

`Directory` 索引文件存放的抽象目录，`FSDirectory`/`RAMDirectory`

`DirectoryReader` 打开只读视图，可感知实时刷新 `openIfChanged`

`IndexSearcher` 搜索门面，封装打分器、Collector，执行 `search(query, collector)`

`Query` 家族查询语法树：TermQuery、BooleanQuery、RangeQuery、KnnVectorQuery…

`Collector` 家族结果收集器：TopDocsCollector、TotalHitCountCollector、自定义聚合

`ScoreDoc` / `TopDocs` 搜索结果载体，含 docID + score + 排序键

---

四、索引物理结构（对应类）

- Directory → 一个文件夹 = 一个索引

- Segment → 每次 flush 产生一个段，对应 `LeafReader`

- 倒排文件：`.tim/.tip/.doc/.pos/.pay` 由 `PostingsFormat` 管理（如 `Lucene90PostingsFormat`）

- 正排/列存：`DocValues`（用于排序、聚合）

- 存储字段：`.fdt/.fdx` 由 `StoredFieldsFormat` 管理

---

五、一句话总结

> Lucene = Analyzer 分词 + IndexWriter 写段 + DirectoryReader 读段 + IndexSearcher 查段 + Collector 收结果；

所有 API 都围绕 Document-Field / Query-Collector 这两组核心抽象旋转。

查看全文

http://www.dtcms.com/a/292978.html

POSIX系统介绍

【小白量化智能体】应用6：根据通达信指标等生成机器学习Python程序

A316-LS-MIC-V2：USB AI直播麦克风评估板技术解析

Linux——进程间通信，匿名管道，进程池

Spring AI 系列之二十 - Hugging Face 集成

轩辕杯2025 Pwn baby_heap WP(house_of_apple2)

FFMPEG 解码流程硬解码

从零构建实时通信引擎：Freeswitch源码编译与深度优化指南

netty的编解码器，以及内置的编解码器

Linux系统权限全面解析：掌握你的数字王国钥匙

Python 链接各种中间件[Mysql\redis\mssql\tdengine]

数据结构01:链表

FashionAI / 智尚衣橱 / TryFit / 智能时尚搭配平台

面试150 N皇后Ⅱ

Docker环境搭建RabbitMq集群详解

【CAN】2.帧格式

ReasonFlux：基于思维模板与分层强化学习的高效推理新范式

Python接口自动化实战 ( 第一阶段) - 封装接口请求类和异常处理

Ubuntu 虚拟机配置与Windows互传文件

react19相关问题和解答

【技术新闻】OpenAI发布GPT-5，AI编程助手迎来革命性突破

React集成百度【BMap Draw】教程（001）：实现距离测量和面积测量

dubbo源码分析之请求调用异步化原理

Pandas核心数据结构详解

第3章通用的服务可用性治理手段——3.2 重试

Kotlin 作用域函数 let 的实现原理

大疆视觉算法面试30问全景精解

基于Java+MySQL实现（Web）文件共享管理系统（仿照百度文库）

Java自动拆箱机制

相关文章：