当前位置: 首页 > news >正文

【Lucene】文件概览

Lucene 把索引拆成 “段(segment)+ 文件” 两层结构,每个段用同一前缀(如 `_0`、`_1`)命名一组文件;一个段就相当于一个独立的小索引。下面按文件扩展名列出常见文件及其作用、存放内容和使用场景,供速查。

 

扩展名 中文简称 存放内容 主要用途 

segments_N 段集合文件 当前索引包含多少个段、各段版本、提交点等 启动时加载整个索引的“目录” 

.si 段元数据 单个段的文档数、版本、是否复合文件等 打开段时读一次即可 

.tim 词典文件 按字典序保存所有 Term + 统计信息(docFreq、totalTermFreq)+ 指向倒排表的指针 先查 `.tim` 找到 Term 

.tip 词典索引 对 `.tim` 的 FST 索引,支持 O(log n) 快速定位到 block 加速 `.tim` 查找 

.doc 倒排表主体 docId 列表 + 词频(压缩差值编码) 拿到 Term 后读 `.doc` 获取文档 

.pos 位置文件 Term 在每个文档中的 字符/词级别位置(可选) 短语查询、高亮 

.pay 载荷文件 payload、偏移量 等附加信息(可选) 需要 payload 时使用 

.fdt 存储字段数据 文档被 `store=true` 的字段原始内容(正文、标题等) 搜索结果回显 

.fdx 存储字段索引 指向 `.fdt` 的 文档级别指针索引 快速随机访问 `.fdt` 

.fnm 字段元数据 字段名、类型、是否索引/存储、是否分词、docValues 类型等 构建 FieldInfo 

.nvd/.nvm Norms 数据/元数据 每篇文档每字段的 长度归一化因子 计算 BM25、打分 

.dvd/.dvm DocValues 数据/元数据 每篇文档每字段的 排序、聚合数值、分类标签 等 排序、聚合、脚本 

.tvx/.tvd/.tvf TermVector 索引/数据 每篇文档每字段的 词、位置、偏移、payload 向量信息 高亮、ML 特征 

.liv 存活文档列表 标记哪些 docId 仍然有效(被删除的置位) 过滤软删除文档 

.cfs/.cfe 复合文件/索引 把小文件合并成单个大文件 `.cfs` + 索引 `.cfe`(可选,减少句柄) 操作系统句柄紧张时启用 

 

使用场景速记

- 查词:`.tip` → `.tim` → `.doc/.pos/.pay`  

- 取原文:`.fdx` → `.fdt`  

- 打分:`.nvd`/`nvm` + `.doc`  

- 聚合/排序:`.dvd/.dvm`  

- 高亮/ML:`.tvx/.tvd/.tvf`

 

这样即可一眼看懂 Lucene 目录里的“一堆文件”各自职责。

http://www.dtcms.com/a/295543.html

相关文章:

  • 【Java学习|黑马笔记|Day21】IO流综合练习,多线程|常用成员方法,守护线程、礼让线程、插入线程
  • 借助 Amazon Redshift 为具有强大抗风险能力的使用案例提供支持
  • AI结对编程:分布式团队的集体记忆外脑
  • Leetcode力扣解题记录--第2题(加法模拟)
  • (进阶向)Python第十四期OpenCv图像预处理方法[2]
  • ModernBERT如何突破BERT局限?情感分析全流程解析
  • 输电线路微气象在线监测装置:保障电网安全的科技屏障
  • Text2SQL智能问答系统开发(一)
  • 成品电池综合测试仪:保障电池品质与安全的核心工具|深圳鑫达能
  • C++抽象类完全指南
  • 三坐标测量仪高效批量检测轴类传动零件
  • 基于深度学习的图像分类:使用EfficientNet实现高效分类
  • 基础NLP | 常用工具
  • DeepSpeed-FastGen:通过 MII 和 DeepSpeed-Inference 实现大语言模型的高吞吐文本生成
  • 机器翻译编程
  • Unity是如何把3D场景显示到屏幕上的——Unity的渲染过程
  • 实战演练—基于Transformers的NLP解决方案总结
  • Python实现PDF按页分割:灵活拆分文档的技术指南
  • 【Rust线程】Rust高并发编程之线程原理解析与应用实战
  • K8s WebUI 选型:国外 Rancher vs 国内 KubeSphere vs 原生 Dashboard,从部署到使用心得谁更适合企业级场景?
  • 【REACT18.x】CRA+TS+ANTD5.X封装自定义的hooks复用业务功能
  • 初识opencv03——图像预处理2
  • C++vector(2)
  • TreeMap一致性哈希环设计与实现 —— 高可用的数据分布引擎
  • 【RAG优化】RAG应用中图文表格混合内容的终极检索与生成策略
  • 【AI】Jupyterlab中打开文件夹的方式
  • 元宇宙工厂网页新形态:3D场景嵌入与WebGL交互的轻量化实现
  • MySQL 表的操作
  • 奇异值分解(Singular Value Decomposition, SVD)
  • 武汉火影数字|数字党建展厅制作 VR红色数字纪念馆 党史馆数字化打造