当前位置: 首页 > news >正文

【lucene】实现knn

在 Lucene 中,可以通过 `KnnFloatVectorQuery` 和 `KnnFloatVectorField` 来实现 KNN(k-Nearest Neighbors)搜索。以下是具体介绍:

 

1. 功能原理

`KnnFloatVectorQuery` 是 Lucene 用于执行最近邻搜索的查询类,它可以在一个字段中搜索与目标向量最相似的 k 个向量。其核心是基于 HNSW(Hierarchical Navigable Small World)算法,构建图索引以实现高效的近似最近邻(Approximate Nearest Neighbor,ANN)搜索。

 

2. 代码示例

 

2.1 索引向量字段

 

```java

import org.apache.lucene.document.Document;

import org.apache.lucene.document.KnnFloatVectorField;

import org.apache.lucene.index.IndexWriter;

import org.apache.lucene.index.IndexWriterConfig;

import org.apache.lucene.store.Directory;

import org.apache.lucene.store.ByteBuffersDirectory;

 

import java.io.IOException;

import java.util.ArrayList;

import java.util.List;

import java.util.Random;

 

public class LuceneKNNExample {

    public static float[] generateFVector(int dim) {

        float[] vector = new float[dim];

        Random random = new Random();

        for (int i = 0; i < dim; i++) {

            vector[i] = random.nextFloat();

        }

        return vector;

    }

 

    public static void main(String[] args) throws IOException {

        Directory directory = new ByteBuffersDirectory();

        IndexWriterConfig config = new IndexWriterConfig(null);

        IndexWriter indexWriter = new IndexWriter(directory, config);

 

        int count = 10000;

        int dim = 128;

        List<Document> docs = new ArrayList<>();

        for (int i = 0; i < count; i++) {

            Document doc = new Document();

            doc.add(new KnnFloatVectorField("fvecs", generateFVector(dim)));

            docs.add(doc);

        }

        indexWriter.addDocuments(docs);

        indexWriter.commit();

        System.out.println("索引写入成功");

    }

}

```

 

2.2 执行 KNN 查询

 

```java

import org.apache.lucene.index.DirectoryReader;

import org.apache.lucene.index.IndexReader;

import org.apache.lucene.search.IndexSearcher;

import org.apache.lucene.search.TopDocs;

import org.apache.lucene.store.Directory;

import org.apache.lucene.util.BytesRef;

 

import java.io.IOException;

import java.nio.file.Path;

import java.util.Random;

 

public class KNNQueryExample {

    public static float[] generateFVector(int dim) {

        float[] vector = new float[dim];

        Random random = new Random();

        for (int i = 0; i < dim; i++) {

            vector[i] = random.nextFloat();

        }

        return vector;

    }

 

    public static void main(String[] args) throws IOException {

        Directory readDirectory = new ByteBuffersDirectory();

        IndexReader indexReader = DirectoryReader.open(readDirectory);

        IndexSearcher indexSearcher = new IndexSearcher(indexReader);

 

        float[] queryVector = generateFVector(128);

        int k = 3;

 

        TopDocs topDocs = indexSearcher.search(new KnnFloatVectorQuery("fvecs", queryVector, k), k);

 

        for (ScoreDoc scoreDoc : topDocs.scoreDocs) {

            System.out.println("doc: " + scoreDoc.doc + ", score: " + scoreDoc.score);

        }

    }

}

```

 

3. 查询原理

 

- `KnnFloatVectorQuery` 的 rewrite 过程:在 rewrite 之后,`KnnFloatVectorQuery` 会变成 `DocAndScoreQuery`,它内部已经存储了符合条件的 `docId` 和 `score`。

- HNSW 算法:HNSW 算法将新节点链接到 M 个最近邻,通过反向链接和修剪来保留多样性。M 值越大,精度越高,成本也越高。Beam-width 控制搜索范围。

http://www.dtcms.com/a/294179.html

相关文章:

  • Vue TodoList案例
  • Task 01 学习笔记
  • 若依前后端分离版学习笔记(二)——系统菜单介绍
  • 在写作软件中画地图,Canvas 绘图在地图设计中应用
  • 音视频学习(四十三):H264无损压缩
  • 基于CEEMDAN+SSA-TCN-BiLSTM-Attention的混合预测模型
  • 汽车电子架构
  • UE5 如何显示蓝图运行流程
  • MySQL进阶学习与初阶复习第一天
  • 音视频中一些常见的知识点
  • OpenCV(01)基本图像操作、绘制,读取视频
  • 枚举右,维护左
  • 【音视频学习】四、深入解析视频技术中的YUV数据存储方式:从原理到实践
  • Web3 开发者进阶学习图谱
  • 面向对象分析与设计40讲(7)设计原则之合成复用原则
  • 用 PyTorch 实现全连接网络识别 MNIST 手写数字
  • 【Unity编辑器开发与拓展Handles】
  • PyTorch中nn.Module详解和综合代码示例
  • 不同地区的主要搜索引擎工具
  • Java项目中定时任务三方工具和技术的深度应用指南
  • C#定时任务实战指南:从基础Timer到Hangfire高级应用
  • 基于Python的新闻爬虫:实时追踪行业动态
  • SQL Server 数据类型的含义、特点及常见使用场景的详细说明
  • Redis 的事务机制是怎样的?
  • 【世纪龙科技】汽车专业数字课程资源-新能源汽车维护与故障诊断
  • UI自动化测试实战
  • RPA认证考试全攻略:如何高效通过uipath、实在智能等厂商考试
  • MCP vs 传统集成方案:AI时代下的协议革命与性能博弈
  • uniapp 仿美团外卖详情页滑动面板组件[可自定义内容、自定义高度]
  • UniApp H5 适配 PC 端新姿势:打造跨设备一致体验