当前位置：首页 > wzjs >正文

杭州最便宜的网站建设站长百度

wzjs 2025/8/3 14:24:43

杭州最便宜的网站建设,站长百度,wordpress禁止自适应,百度公司给做网站吗什么是ElasticSearch ElasticSearch（简称ES）是一个开源的分布式搜索和数据分析引擎，用Java开发并且是当前最流行的开源的企业级搜索引擎，能够达到近实时搜索，它专门设计用于处理大规模的文本数据和实现高性能的全文检…

什么是ElasticSearch

ElasticSearch（简称ES）是一个开源的分布式搜索和数据分析引擎，用Java开发并且是当前最流行的开源的企业级搜索引擎，能够达到近实时搜索，它专门设计用于处理大规模的文本数据和实现高性能的全文检索。

优势

搜索引擎的排名：

参考网站：DB-Engines Ranking - popularity ranking of search engines

作为排名第一的搜索引擎，以下是一些 Elasticsearch 的优势：

分布式架构：Elasticsearch 采用分布式架构，可以轻松处理大规模数据，并支持水平扩展，提高系统的可扩展性和容错性。
全文检索功能：Elasticsearch 提供了强大的全文检索功能，可以对文本数据进行高效的搜索和分析，支持复杂的查询语法和自定义分析器。
多语言支持：Elasticsearch 支持多种语言的数据处理和检索，可以满足不同语言环境下的搜索需求。
高性能：Elasticsearch 采用了倒排索引等优化技术，能够实现高效的搜索和数据处理性能，满足大规模数据的实时查询需求。
实时性：Elasticsearch 提供近乎实时的搜索和分析功能，确保用户能够及时获取最新的数据和信息。
易用性：Elasticsearch 提供了丰富的 API 和插件，使得开发者可以轻松集成和使用，同时其查询语法简洁明了，易于上手。

官方网站: Elastic — The Search AI Company | Elastic

下载地址：Past Releases of Elastic Stack Software | Elastic

生态介绍

Elastic Stack由Logstash、Beats、ElasticSearch和Kibana 四大核心产品组成，在数据采集、存储、分析及数据可视化方面有着无可比拟的优势。

ElasticSearch

作为Elastic Stack的基石，Elasticsearch是一个高度可扩展的开源全文搜索与分析引擎。它利用分布式架构提供近乎实时的数据搜索、分析和可视化能力。Elasticsearch通过其强大的索引和查询功能，能够处理PB级的数据量，支持复杂的数据分析和挖掘需求，是构建现代数据驱动应用的理想选择。

Logstash

Logstash是一个灵活的服务器端数据处理管道，能够同时从多个源采集数据，转换数据然后将数据发送到您指定的目的地。它支持丰富的插件生态系统，使得数据收集、解析和转换过程变得高效且易于配置。Logstash在Elastic Stack中扮演着数据预处理和传输的关键角色，确保数据以正确的格式和结构进入Elasticsearch，为后续的分析和可视化提供坚实的基础。

Beats

Beats是一个轻量级的数据采集器家族，专为发送数据到Logstash、Elasticsearch或Kafka等目的地而设计。每个Beat都是一个独立运行的守护进程，用于从系统或应用程序中收集数据，并将这些数据转发到指定的数据收集和处理系统中。Beats家族包括Filebeat（用于文件日志）、Metricbeat（用于系统和应用性能指标）、Heartbeat（用于监控服务可用性）等多个成员，它们共同构成了强大的边缘数据采集网络，覆盖了广泛的监控和日志收集需求。

Kibana

Kibana是Elastic Stack的可视化和管理界面，为Elasticsearch数据提供了强大的可视化功能。通过Kibana，用户可以轻松创建仪表板、图表和地图，以直观的方式展示Elasticsearch中的数据。此外，Kibana还提供了交互式查询和过滤功能，使用户能够深入挖掘数据，发现隐藏的趋势和模式。作为Elastic Stack的用户界面，Kibana使得数据分析变得更加直观、便捷和高效。

应用场景

只要用到搜索的场景，Elasticsearch几乎都可以是最好的选择。结合Kibana、Logstash、Beats，ElaticSearch可以用于全文检索、日志分析、商业智能场景。

全文检索

首先，Elasticsearch支持各类应用、网站等的全文搜索，包括淘宝、京东等电商平台的搜索

其次，它支持用户通过自定义打分、自定义排序、高亮等机制召回期望的结果数据，通过跨机房/跨机架感知、异地容灾等策略，为用户提供高可用、高并发、低延时、用户体验好的搜索服务。

许多知名企业，如阿里巴巴、腾讯、携程、滴滴出行、美团、字节跳动、贝壳找房等，都将Elasticsearch作为关键技术之一

日志分析

Elasticsearch支持的日志包含但不限于如下类型：

用户行为日志、应用日志等业务日志。
慢查询、异常探测等状态日志。
Debug、Info、WARN、ERROR、FATAL等不同等级的系统日志。

许多知名企业，如58集团、唯品会、日志易、国投瑞银等，都使用Elasticsearch来快速分析和处理大量的日志数据，从而对业务运行状况进行实时的监控和故障排查。

商业智能场景

大型业务数据给电子商务、移动App开发、广告媒体等领域的企业的数据收集和数据分析带来了巨大的挑战。而Elasticsearch具有结构化查询功能，能实现全文数据检索和聚合分析

许多知名企业的商业智能系统，如睿思BI、百度数据可视化Sugar BI、永洪BI等，都借助Elasticsearch帮助企业更好地理解市场趋势、优化决策过程。

快速安装

官网地址：Install Elasticsearch with .zip on Windows | Elasticsearch Guide [8.14] | Elastic (windows安装)

Window安装

下载地址： https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-8.14.3-windows-x86_64.zip

ElasticSearch目录结构如下：

目录	描述
bin	脚本文件，包括启动elasticsearch，安装插件，运行统计数据等
config	配置文件目录，如elasticsearch配置、角色配置、jvm配置等。
jdk	7.x 以后特有，自带的 java 环境
data	默认的数据存放目录，包含节点、分片、索引、文档的所有数据，生产环境需要修改。
lib	elasticsearch依赖的Java类库
logs	默认的日志文件存储路径，生产环境需要修改。
modules	包含所有的Elasticsearch模块，如Cluster、Discovery、Indices等。
plugins	已安装插件目录

2. 配置JDK环境

ES比较耗内存，建议虚拟机4G或以上内存，jvm1g以上的内存分配
运行Elasticsearch，需安装并配置JDK。各个版本对Java的依赖 Support Matrix | Elastic
- 7.0开始，内置了Java环境。ES的JDK环境变量生效的优先级配置顺序ES_JAVA_HOME>ES_HOME
- ES_JAVA_HOME：用于指定Elasticsearch使用的Java运行时环境的路径。启动Elasticsearch时，会检查ES_JAVA_HOME环境变量并使用
- ES_HOME：这个环境变量指定Elasticsearch的安装路径。它用于定位Elasticsearch的配置文件、插件和其他相关资源。
- 可以参考ES的环境文件elasticsearch-env.bat

windows下，设置ES_JAVA_HOME和ES_HOME的环境变量

3. 配置ElasticSearch

编辑config/elasticsearch.yml文件

关闭security安全认证

ES 8 默认是开启Security的，初学者便于快速上手，可以关闭Security。

4. 启动ElasticSearch服务

解决启动日志乱码问题

#打开config/jvm.options 文件—>末尾添加
-Dfile.encoding=GBK

进入bin目录，点击elasticsearch.bat文件启动 ES 服务

注意：9300 端口为 Elasticsearch集群间组件的通信端口，9200 端口为浏览器访问的 http

打开浏览器（推荐使用谷歌浏览器），输入地址：http://localhost:9200，测试结果

Linux安装

准备linux安装环境： centos7

# 注意：ES不允许使用root账号启动服务，如果你当前账号是root，则需要创建一个专有账户
# 为elaticsearch创建用户
adduser fox
passwd fox

通过fox用户登录，下载ElasticSearch并解压

# centos7  通过fox用户进入
wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-8.14.3-linux-x86_64.tar.gz
tar -xzf elasticsearch-8.14.3-linux-x86_64.tar.gz
cd elasticsearch-8.14.3/ 

# 将ES安装包的所有者和组更改为fox用户
chown -R fox:fox elasticsearch-8.14.3

配置JDK环境（可选）

# 进入fox用户主目录，比如/home/fox目录下，设置用户级别的环境变量
vim .bash_profile
#设置ES_JAVA_HOME和ES_HOME的路径
export ES_JAVA_HOME=/home/fox/elasticsearch-8.14.3/jdk/
export ES_HOME=/home/fox/elasticsearch-8.14.3
#执行以下命令使配置生效
source .bash_profile

修改config/elasticsearch.yml配置文件

vim elasticsearch.yml

#配置节点对外提供服务的地址以及集群内通信的ip地址，默认为回环地址127.0.0.1 和[::1]
#配置为0.0.0.0开启远程访问支持  
network.host: 0.0.0.0
#指定节点为单节点，可以绕过引导检查   初学者建议设置为此开发模式 
discovery.type: single-node

#初学者建议关闭security安全认证
xpack.security.enabled: false

配置JVM参数（可选

修改config/jvm.options配置文件，调整jvm堆内存大小

vim jvm.options -Xms4g -Xmx4g

配置的建议：

Xms（JVM 启动时分配的最小堆内存）和Xms（JVM 在运行过程中能够分配的最大堆内存）设置成—样
Xmx不要超过机器内存的50%
不要超过30GB - A Heap of Trouble: Managing Elasticsearch's Managed Heap | Elastic Blog

6）启动ElasticSearch服务

#注意：es默认不能用root用户启动
#fox用户下启动ES
bin/elasticsearch 

# -d 后台启动
bin/elasticsearch -d

打开本地浏览器（推荐使用谷歌浏览器），输入地址：http://192.168.65.47:9200 （换成linux环境对应的ip），测试结果如下：

开发模式和生产模式

开发模式：开发模式是默认配置（未配置集群发现设置），如果用户只是出于学习目的，而引导检查会把很多用户挡在门外，所以ES提供了一个设置项discovery.type=single-node。此项配置为指定节点为单节点，可以绕过引导检查。
生产模式：当用户修改了有关集群的相关配置会触发生产模式，在生产模式下，服务启动会触发ES的引导检查或者叫启动检查（bootstrap checks）
- 引导检查就是在服务启动之前对一些重要的配置项进行检查
- 引导检查包括对JVM大小、内存锁、虚拟内存、最大线程数、集群发现相关配置等相关的检查，如果某一项或者几项的配置不合理，ES会拒绝启动服务，并且在开发模式下的某些警告信息会升级成错误信息输出。
- 这种设定虽然增加了用户的使用门槛，但是避免了日后产生更大的问题。

常用配置参数

参考文档：Important Elasticsearch configuration | Elasticsearch Guide [8.14] | Elastic

cluster.name

当前节点所属集群名称，多个节点如果要组成同一个集群，那么集群名称一定要配置成相同。默认值elasticsearch，生产环境建议根据ES集群的使用目的修改成合适的名字。

node.name

当前节点名称，默认值当前节点部署所在机器的主机名，所以如果一台机器上要起多个ES节点的话，需要通过配置该属性明确指定不同的节点名称。

path.data

配置数据存储目录，比如索引数据等，默认值 $ES_HOME/data，生产环境下强烈建议部署到另外的安全目录，防止ES升级导致数据被误删除。

path.logs

配置日志存储目录，比如运行日志和集群健康信息等，默认值 $ES_HOME/logs，生产环境下强烈建议部署到另外的安全目录，防止ES升级导致数据被误删除。

bootstrap.memory_lock

配置ES启动时是否进行内存锁定检查，默认值true。

ES对于内存的需求比较大，一般生产环境建议配置大内存，如果内存不足，容易导致内存交换到磁盘，严重影响ES的性能。所以默认启动时进行相应大小内存的锁定，如果无法锁定则会启动失败。

如果该参数配置为true的话很可能导致无法锁定内存以致ES无法成功启动，此时可以修改为false。

network.host

节点对外提供服务的地址以及集群内通信的ip地址，默认值为当前节点所在机器的本机回环地址127.0.0.1 和[::1]，这就导致默认情况下只能通过当前节点所在主机访问当前节点。

http.port

配置当前ES节点对外提供服务的http端口，默认 9200

transport.port

节点通信端口号，默认 9300

discovery.seed_hosts

配置参与集群节点发现过程的主机列表，说白一点就是集群中所有节点所在的主机列表，可以是具体的IP地址，也可以是可解析的域名。

cluster.initial_master_nodes

配置ES集群初始化时参与master选举的节点名称列表，必须与node.name配置的一致。ES集群首次构建完成后，应该将集群中所有节点的配置文件中的cluster.initial_master_nodes配置项移除，重启集群或者将新节点加入某个已存在的集群时切记不要设置该配置项。

安装ES浏览器插件

Chrome下载Github下载

Chrome下载

Chrome下载Edge下载

可视化客户端Kibana安装

Kibana是一个开源分析和可视化平台，旨在与Elasticsearch协同工作。

参考文档：Quick start | Kibana Guide [8.14] | Elastic

下载地址：Past Releases of Elastic Stack Software | Elastic

下载并解压缩Kibana

#windows
https://artifacts.elastic.co/downloads/kibana/kibana-8.14.3-windows-x86_64.zip#linux
wget https://artifacts.elastic.co/downloads/kibana/kibana-8.14.3-linux-x86_64.tar.gz
tar -zxvf kibana-8.14.3-linux-x86_64.tar.gz
cd kibana-8.14.3

2. 修改Kibana.yml配置文件

vim config/kibana.yml#指定Kibana服务器监听的端口号
server.port: 5601 
#指定Kibana服务器绑定的主机地址  
server.host: "0.0.0.0"  
#指定Kibana连接到的Elasticsearch实例的访问地址
elasticsearch.hosts: ["http://localhost:9200"]  
#将 Kibana 的界面语言设置为简体中文
i18n.locale: "zh-CN"

3. 运行Kibana

windows：直接执行kibana.bat

Linux：注意：kibana也需要非root用户启动

#启动kibana服务
bin/kibana
#后台启动，并将日志写入到logs/kibana.log
nohup bin/kibana > logs/kibana.log 2>&1 &#查询kibana进程
netstat -tunlp | grep 5601

4. 访问Kibana: http://localhost:5601

cat API

/_cat/allocation         #查看单节点的shard分配整体情况
/_cat/shards          #查看各shard的详细情况
/_cat/shards/{index}     #查看指定分片的详细情况
/_cat/master          #查看master节点信息
/_cat/nodes           #查看所有节点信息
/_cat/indices         #查看集群中所有index的详细信息
/_cat/indices/{index}      #查看集群中指定index的详细信息
/_cat/segments        #查看各index的segment详细信息,包括segment名, 所属shard, 内存(磁盘)占用大小, 是否刷盘
/_cat/segments/{index}#查看指定index的segment详细信息
/_cat/count           #查看当前集群的doc数量
/_cat/count/{index}   #查看指定索引的doc数量
/_cat/recovery        #查看集群内每个shard的recovery过程.调整replica。
/_cat/recovery/{index}#查看指定索引shard的recovery过程
/_cat/health          #查看集群当前状态：红、黄、绿
/_cat/pending_tasks   #查看当前集群的pending task
/_cat/aliases         #查看集群中所有alias信息,路由配置等
/_cat/aliases/{alias} #查看指定索引的alias信息
/_cat/thread_pool     #查看集群各节点内部不同类型的threadpool的统计信息,
/_cat/plugins         #查看集群各个节点上的plugin信息
/_cat/fielddata       #查看当前集群各个节点的fielddata内存使用情况
/_cat/fielddata/{fields}     #查看指定field的内存使用情况,里面传field属性对应的值
/_cat/nodeattrs              #查看单节点的自定义属性
/_cat/repositories           #输出集群中注册快照存储库
/_cat/templates              #输出当前正在存在的模板信息

安装中文分词插件

在线安装

以安装analysis-icu这个分词插件为例

analysis-icu功能：

基于ICU（International Components for Unicode）库，提供高级的文本分析和处理功能。
支持多语言和复杂的Unicode文本处理。
包含ICU分词器（ICU Tokenizer）和ICU标准化过滤器（ICU Normalizer）。

analysis-icu应用场景：

多语言文本分析，适用于处理各种语言的文本。
支持Unicode标准化和处理复杂字符。
提供高级的文本处理功能，如正则表达式替换、文本转换等。

#查看已安装插件
bin/elasticsearch-plugin list
#安装插件
bin/elasticsearch-plugin install analysis-icu
#删除插件
bin/elasticsearch-plugin remove analysis-icu
# 注意：安装和删除完插件后，需要重启ES服务才能生效。

测试分词效果

POST _analyze
{"analyzer":"icu_analyzer","text":"中华人民共和国"
}

离线安装

本地下载相应的插件，解压，然后手动上传到elasticsearch的plugins目录，然后重启ES实例就可以了。

比如ik中文分词插件：GitHub - infinilabs/analysis-ik: 🚌 The IK Analysis plugin integrates Lucene IK analyzer into Elasticsearch and OpenSearch, support customized dictionary.

注意：ik分词器插件和ES版本必须一一对应，否则会出现兼容性问题导致ES启动失败。

当前ik分词器插件最新版本还只支持到ES8.4.1，而我们使用的ES版本是8.14.3，安装后会出现兼容性问题。那如何解决？

可以从Index of: analysis-ik/stable/ 下载ES8.14.3对应版本的分词器

测试分词效果

#ES的默认分词设置是standard，会单字拆分
POST _analyze
{"analyzer":"standard","text":"中华人民共和国"
}#ik_smart:会做最粗粒度的拆
POST _analyze
{"analyzer": "ik_smart","text": "中华人民共和国"}#ik_max_word:会将文本做最细粒度的拆分
POST _analyze
{"analyzer":"ik_max_word","text":"中华人民共和国"
}

创建索引时可以指定IK分词器作为默认分词器

# 创建索引，指定默认分词器
PUT /employee
{"settings" : {"index" : {"analysis.analyzer.default.type": "ik_max_word"  //这里指定了ik_max_word类型索引}}
}# 查看索引setting信息
GET /employee/_settings

也可以针对字段配置IK分词器

//创建索引
PUT /index
// 指定映射
POST /index/_mapping
{"properties": { //这是一个包含字段定义的JSON对象。在这个例子中，它只包含了一个字段content"content": {  //索引中要定义的字段名//指定content字段的数据类型为text。在Elasticsearch中，text类型用于全文搜索的文本字段，可以被分词器（analyzer）处理成多个词条（tokens）用于索引和搜索。"type": "text", //指定在索引（写入）content字段时使用的分词器为ik_max_word。ik_max_word是IK分词器插件提供的一个分词器，它会对文本进行最细粒度的切分"analyzer": "ik_max_word",//指定在搜索（查询）content字段时使用的分词器为ik_smart。ik_smart是IK分词器的另一种分词模式，它尝试对文本进行更智能的切分，以提高搜索的准确率 "search_analyzer": "ik_smart"}}
}//索引文档，也就是插入文档，分别向索引 index 中添加了四个文档
POST /index/_create/1
{"content":"美国留给伊拉克的是个烂摊子吗"}
POST /index/_create/2
{"content":"公安部：各地校车将享最高路权"}
POST /index/_create/3
{"content":"中韩渔警冲突调查：韩警平均每天扣1艘中国渔船"}
POST /index/_create/4
{"content":"中国驻洛杉矶领事馆遭亚裔男子枪击 嫌犯已自首"}//带高亮的查询，用于搜索所有 content 字段中包含“中国”这个词的所有文档
POST /index/_search
{"query": {"match": {"content": "中国"}},"highlight": {"pre_tags": ["<tag1>","<tag2>"],"post_tags": ["</tag1>","</tag2>"],"fields": {"content": {}}}
}

查看全文

http://www.dtcms.com/wzjs/203767.html