当前位置: 首页 > news >正文

elasticsearch+sentencetransformer检索样例

elasticsearch+sentencetransformer结合实现搜索确实效率很高,但是跟着官方版本进行操作会有很多的误区,小编踩了很多坑才得到一版不报错的代码,感兴趣的小伙伴可以运行一下玩玩。
在开始前需要做一些准备工作:

一、准备工作

1、脚本中用到了elasticsearch、sentence_transformers,需要先行安装

这里我用的elasticsearch版本是8.8.1,不同版本可能会有所差异

pip install elasticsearch
pip install sentence_transformers

2、在运行代码前需要先行启动elasticsearch,出现以下类似的页面

在这里插入图片描述

3、在https://hf-mirror.com/中找到对应的模型

我在这里使用到的是all-MiniLM-L6-v2

4、准备待搜索的文档

官方文档提供的数据集引入方式是load_dataset,这个是下载现成的datasets来使用,但是我发现很难找到对应的数据集,所以我自己做了一个,其实很简单的csv文档,这样你可以方便的使用你的数据来替换搜索的内容
在这里插入图片描述

二、具体实现代码

from elasticsearch import Elasticsearch
from sentence_transformers import SentenceTransformer
import csv

# 配置参数
ES_HOST = "http://localhost:9200"
MODEL_PATH = "E:/all/pythonProject/2025srt/models/sentence-transformers/all-MiniLM-L6-v2" #将模型替换为你的模型对应的位置
CSV_PATH = "E:/all/pythonProject/2025srt/ess/quora/quornew.csv" #替换为你需要的路径和名字
INDEX_NAME = "quora_questions"  # 确保与后续查询一致

# 初始化连接和模型
es = Elasticsearch(ES_HOST)
model = SentenceTransformer(MODEL_PATH)

# 步骤1:创建包含 dense_vector 的索引
if not es.indices.exists(index=INDEX_NAME):
    index_settings = {
        "mappings": {
            "properties": {
                "text_vector": {
                    "type": "dense_vector",  # 关键修正点
                    "dims": 384,              # all-MiniLM-L6-v2 的向量维度是384
                    "index": True,           # 启用kNN索引
                    "similarity": "cosine"   # 根据模型选择相似度算法
                },
                "id": {"type": "integer"},
                "text": {"type": "text"}
            }
        }
    }
    es.indices.create(index=INDEX_NAME, body=index_settings)

# 步骤2:索引数据(处理BOM字符问题)
with open(CSV_PATH, newline='', encoding='utf-8-sig') as csvfile:  # 使用utf-8-sig处理BOM
    reader = csv.DictReader(csvfile)
    for row in reader:
        doc_id = int(row['id'])  # 修正BOM导致的字段名问题
        text = row['text']
        
        # 生成向量
        text_vector = model.encode(text).tolist()
        
        # 构建文档
        document = {
            "id": doc_id,
            "text": text,
            "text_vector": text_vector
        }
        
        # 写入ES
        es.index(index=INDEX_NAME, id=doc_id, document=document)

print(f"数据已索引到 {INDEX_NAME}")

# 步骤3:执行kNN查询(修正查询结构)
query_text = "What is the meaning of democracy?"
query_vector = model.encode(query_text).tolist()

# 修正后的查询体
search_body = {
    "knn": {
        "field": "text_vector",
        "query_vector": query_vector,
        "k": 5,
        "num_candidates": 100
    },
    "_source": ["text", "id"]  # 返回字段
}
# knn:从海量数据中‌快速找出与目标向量最接近的 k 个结果
try:
    response = es.search(index=INDEX_NAME, body=search_body)  # 关键修正:使用body参数
    print("搜索结果:")
    for hit in response['hits']['hits']:
        print("查找对象:" + query_text)
        print(f"ID: {hit['_id']}, Score: {hit['_score']:.4f}")
        print(f"Text: {hit['_source']['text']}\n")
except Exception as e:
    print(f"查询失败: {str(e)}")

结果:找到了五条相似的内容
在这里插入图片描述

三、官方文档

Elasticsearch:语义搜索 - Semantic Search in python

相关文章:

  • SpringBoot3+Vue3实战(Vue3快速开发登录注册页面并对接后端接口、表单项自定义校验规则、Hutool工具类)(4)
  • 深度学习复习笔记(8)特征提取与无监督学习
  • 再学:区块链基础与合约初探 EVM与GAS机制
  • LiteraSageAI 项目介绍
  • hexo+butterfly博客功能完善和美化(四)---博客上传
  • Ubuntu实时读取音乐软件的音频流
  • 网络世界探索之旅:网络编程
  • 深入解析组合模式(Composite Pattern):概念、结构与应用
  • 可视化动态表单动态表单界的天花板--Formily(阿里开源)
  • 阿里云国际站代理商:服务器网页如何应对恶意网络爬虫?
  • ENSP学习day8
  • HAL库中使用空闲中断+DMA接收数据,接收失败的问题
  • 详解简单选择排序
  • css基础-display 常用布局
  • 1.企业级AD活动目录核心解析:架构、组件与集成实践
  • 【漫话机器学习系列】154.岭回归(Ridge Regression)
  • 【MySQL笔记】库操作与表操作
  • LabVIEW发电平台数据采集系统
  • 云计算中的DevOps是什么?为什么它很重要?
  • SmolVLM2: 让视频理解能力触手可及
  • 快评|印巴为何停火?已达成“一场胜利,各自表述”的效果
  • 卢正已任上海市司法局党委委员、副局长
  • 马上评丨全民定制公交,打开城市出行想象空间
  • 印巴战火LIVE丨“快速接近战争状态”?印度袭击巴军事基地,巴启动反制军事行动
  • 央行最新报告:积极落地5月推出的一揽子金融政策,促进经济供需平衡、物价合理回升
  • 复旦发文缅怀文科杰出教授裘锡圭:曾提出治学需具备三种精神