当前位置：首页 > news >正文

Elasticsearch实操案例

news 2025/11/4 8:44:58

需求分析

在面试刷题平台项目中，用户基于 MyBatis-Plus 的 QueryWrapper 构造动态查询条件，实现对题目的模糊匹配与多字段过滤。

字段名	对应数据库字段	条件构造方式	说明
`searchText`	`title`、`content`	`.like("title", searchText).or().like("content", searchText)`	通用搜索，会在标题或内容里查关键字
`title`	`title`	`like(StringUtils.isNotBlank(title), "title", title)`	单独查标题模糊匹配
`content`	`content`	`like(StringUtils.isNotBlank(content), "content", content)`	单独查内容模糊匹配
`answer`	`answer`	`like(StringUtils.isNotBlank(answer), "answer", answer)`	查题目答案模糊匹配

具体代码如下：

/*** 从数据库中获取查询条件** @param questionQueryRequest* @return*/@Overridepublic QueryWrapper<Question> getQueryWrapper(QuestionQueryRequest questionQueryRequest) {QueryWrapper<Question> queryWrapper = new QueryWrapper<>();if (questionQueryRequest == null) {return queryWrapper;}// todo 从对象中取值Long id = questionQueryRequest.getId();Long notId = questionQueryRequest.getNotId();String title = questionQueryRequest.getTitle();String content = questionQueryRequest.getContent();String searchText = questionQueryRequest.getSearchText();String sortField = questionQueryRequest.getSortField();String sortOrder = questionQueryRequest.getSortOrder();List<String> tagList = questionQueryRequest.getTags();Long userId = questionQueryRequest.getUserId();String answer = questionQueryRequest.getAnswer();// todo 补充需要的查询条件// 从多字段中搜索if (StringUtils.isNotBlank(searchText)) {// 需要拼接查询条件queryWrapper.and(qw -> qw.like("title", searchText).or().like("content", searchText));}// 模糊查询queryWrapper.like(StringUtils.isNotBlank(title), "title", title);queryWrapper.like(StringUtils.isNotBlank(content), "content", content);queryWrapper.like(StringUtils.isNotBlank(answer), "answer", answer);// JSON 数组查询if (CollUtil.isNotEmpty(tagList)) {for (String tag : tagList) {queryWrapper.like("tags", "\"" + tag + "\"");}}// 精确查询queryWrapper.ne(ObjectUtils.isNotEmpty(notId), "id", notId);queryWrapper.eq(ObjectUtils.isNotEmpty(id), "id", id);queryWrapper.eq(ObjectUtils.isNotEmpty(userId), "userId", userId);// 排序规则queryWrapper.orderBy(SqlUtils.validSortField(sortField),sortOrder.equals(CommonConstant.SORT_ORDER_ASC),sortField);return queryWrapper;}

采用like模糊匹配的问题——案例

首先在搜索框中搜索 “CSS”，能查询出两个相关的题目
在这里插入图片描述

现在我想搜索标题中带有 “CSS” 和 “布局”这两个关键词，但是模糊匹配 like 显然不能满足我们的需求

在这里插入图片描述

解决方案——采用Elasticsearch搜索

在这里插入图片描述

Elasticsearch简介

Elastic‏search 生态系统

Elastic‏search 生态系统非常؜丰富，包含了一系列工具和功能，帮助用户处理、分析和可‌视化数据，Elastic ‏Stack 是其核心组成部分。

Elast‏ic Stack（؜也称为 ELK Stack）由以下几‌部分组成：

Elasticsearch：核心搜索引擎，负责存储、索引和搜索数据。
Kibana：可视化平台，用于查询、分析和展示Elasticsearch 中的数据。
Logstash：数据处理管道，负责数据收集、过滤、增强和传输到 Elasticsearch。
Beats：轻量级的数据传输工具，收集和发送数据到 Logstash 或 Elasticsearch。

Elasticsearch 的核心概念

索引（Index）：类似于关系型数据库中的表，索引是数据存储和搜索的基本单位。每个索引可以存储多条文档数据。

文档（Do‏cument）：索؜引中的每条记录，类似于数据库中的行。‌文档以 JSON ‏格式存储。

字段（Fi‏eld）：文档中的؜每个键值对，类似于数据库中的列。

映射（Mappin‏g）：用于定义 Elasticse؜arch 索引中文档字段的数据类型及其处理方式，类似于关系型数据库中‌的 Schema 表结构，帮助控制‏字段的存储、索引和查询行为。

集群（Cl‏uster）：多个؜节点组成的群集，用于存储数据并提供搜‌索功能。集群中的每‏个节点都可以处理数据。

分片（Sh‏ard）：为了实现؜横向扩展，ES 将索引拆分成多个分片‌，每个分片可以分布在不‏同节点上。

副本（Re‏plica）：分片؜的复制品，用于提高可用性和容错性，如图所示：
在这里插入图片描述

Elastic؜search 实现全文检索的原理

分词：El‏asticsearch 的؜分词器会将输入文本拆解成独立的词条（tokens），‌方便进行索引和搜索。分词的‏具体过程包括以下几步：

字符过滤：去除特殊字符、HTML 标签或进行其他文本清理。
分词：根据指定的分词器（analyzer），将文本按规则拆分成一个个词条。例如，英文可以按空格拆分，中文使用专门的分词器处理。
词汇过滤：对分词结果进行过滤，如去掉停用词（常见但无意义的词，如 “the”、“is” 等）或进行词形归并（如将动词变为原形）。

倒排索引：倒排索引是‏ Elasticse؜arch 实现高效搜索的核心数据结构。它‌将文档中的词条映射到‏文档 ID，实现快速查找。

工作原理：

每个文档在被索引时，分词器会将文档内容拆解为多个词条。
然后，Elasticsearch为每个词条生成一个倒排索引，记录该词条在哪些文档中出现。

还有打分规则，可以查看官方文档，这里不做详细介绍。

查询条件

重点了解：

精确匹配 vs. 全文检索：term 是精确匹配，不分词；match 用于全文检索，会对查询词进行分词。
组合查询：bool查询可以灵活组合多个条件，适用于复杂的查询需求。
模糊查询：fuzzy 和 wildcard提供了灵活的模糊匹配方式，适用于拼写错误或不完全匹配的场景

数据同步方案

一般情况下，如果做‏查询搜索功能，使用 ES 来模糊搜索؜，但是数据是存放在数据库 MySQL 里的，所以说我们需要把 MySQL‌ 中的数据和 ES 进行同步，保证数‏据一致（以 MySQL 为主）。

数据流向：MySQL => ES （单向）

数据同步一‏般有 2 个过程：؜全量同步（首次）+ 增量同步（新数据‌）

对于本项目，由于数؜据量不大，题目更新也不频繁，容忍丢失‌和不一致，所以定时任务方案，实现成本最低。

定时任务：比如 1 ‏分钟 1 次，找到 ؜MySQL 中过去几分钟内（至少是定时周‌期的 2 倍）发生改‏变的数据，然后更新到 ES。

http://www.dtcms.com/a/210578.html

相关文章：

基于ssm+mysql的班级管理系统(含LW+PPT+源码+系统演示视频+安装说明)

【MySQL】第8节｜Innodb底层原理与Mysql日志机制深入剖析（一）

Spring boot和SSM项目对比

RT Thread Nano V4.1.1 rtconfig.h 注释 Configuration Wizard 格式

React 文件分片上传与下载全解析

一文快速了解Vue3服务端渲染（SSR）

电子电路：什么是孤立导体？即孤立导体的电荷分布与特性

Mysql 通过案例快速学习常见操作

最大似然估计（Maximum Likelihood Estimation, MLE）详解

Docker安装MySQL集群（主从复制）

知识宇宙：技术文档该如何写？

【MPC控制 - 从ACC到自动驾驶】ACC系统原理与MPC初步认知

SIAM-2007《k-means++: The Advantages of Careful Seeding》

【漫话机器学习系列】275.GrabCut 算法——用于去除图片背景（Grabcut For Removing Image Backgrounds）

Oracle 19c DG备库报错ORA-00313、ORA-00312、ORA-27037

Kafka + Flink + Spark 构建实时数仓全链路实战

Linux系统管理与编程23:巧用git资源一键部署LAMP

wordpress主题开发中常用的12个模板文件

算法中的数学：费马小定理

python下通过wmic设置程序的优先级~~~

如何理解线性判别分析（LDA）算法？

Java语言快速排序和堆排序（优先队列）介绍，附demo代码

安卓11 多任务视图270 度的情况报错

12软件测试需求分析案例-删除学生信息

免费PDF工具-PDF24V9.16.0【win7专用版】

2025年八大员【标准员】考试题库及答案

基于netty实现视频流式传输和多线程传输

25年软考架构师真题(回忆更新中)

【检索增强生成（RAG）全解析】从理论到工业级实践

动静态库--