当前位置: 首页 > news >正文

关于ES中文分词器analysis-ik快速安装

ES中文分词器插件

  • 安装
    • 快速安装
    • 手动安装
  • 应用
    • ik_max_word 与 ik_smart 的区别
    • 验证是否生效

官方地址:https://github.com/infinilabs/analysis-ik

安装

快速安装

插件安装(将链接最后的版本号换成当前ES版本号):

bin/elasticsearch-plugin install https://get.infini.cloud/elasticsearch/analysis-ik/8.4.1

注:

  • 上述地址可正常访问,无需特殊网络配置
  • 如果是通过 Docker 部署的 ES,可参考下述命令
# 进入容器
docker exec -it 容器名称 bash
# 切换指定目录
cd /usr/share/elasticsearch
# 执行安装命令
bin/elasticsearch-plugin install https://get.infini.cloud/elasticsearch/analysis-ik/8.4.1
# 退出容器
exit
# 重启ES容器
docker restart 容器名称

手动安装

下载地址:https://release.infinilabs.com/
参考路径:
在这里插入图片描述
安装方式:

  1. 下载与当前ES版本相同的分词器安装包
  2. 进入ES安装目录,找到 plugins 文件夹,在里面新建一个名为 analysis-ik 的文件夹,把下载的安装包解压后放进该文件夹中
  3. 重启ES

命令参考:

# 进入plugins 文件夹
cd plugins
# 将下载好的文件上传到该目录或这直接下载到该目录
wget https://release.infinilabs.com/analysis-ik/stable/elasticsearch-analysis-ik-9.0.5.zip
# 创建文件夹 analysis-ik
mkdir analysis-ik
# 解压文件到 analysis-ik
unzip elasticsearch-analysis-ik-9.0.5.zip -d analysis-ik/
# 重启ES

应用

ik_max_word 与 ik_smart 的区别

  1. 关联关系
分词器说明
ik_max_word最细粒度切分,会将文本做尽可能多的拆分,适合 索引阶段(indexing)
ik_smart智能粗粒度切分,会做合并优化,切分结果更少,适合 搜索阶段(searching)

  1. 示例对比

文本:"中华人民共和国"

分词器结果
ik_max_word中华, 华人, 人民, 共和, 共和国, 中华人民共和国, …(多个结果)
ik_smart中华人民共和国(一个结果,智能合并)

  1. 实际使用场景(推荐配置)
PUT /news_index
{"settings": {"analysis": {"analyzer": {"my_index_analyzer": {"type": "custom","tokenizer": "ik_max_word"},"my_search_analyzer": {"type": "custom","tokenizer": "ik_smart"}}}},"mappings": {"properties": {"title": {"type": "text","analyzer": "my_index_analyzer","search_analyzer": "my_search_analyzer"}}}
}
  • 索引时用 ik_max_word:确保尽可能多的关键词被收录
  • 搜索时用 ik_smart:避免用户输入被过度拆分,提升召回准确率

验证是否生效

POST /_analyze
{"analyzer": "ik_max_word","text": "人工智能"
}
POST /_analyze
{"analyzer": "ik_smart","text": "人工智能"
}

如果都能返回中文分词结果,说明插件安装成功,两个分词器都可用。


文章转载自:

http://W38q2jwU.thmLt.cn
http://MqWN5JLT.thmLt.cn
http://ltelUr6g.thmLt.cn
http://smmXVtsN.thmLt.cn
http://6BBfecde.thmLt.cn
http://9hExEuU2.thmLt.cn
http://1ms33ELP.thmLt.cn
http://R7Ty4H3L.thmLt.cn
http://o8S6xef5.thmLt.cn
http://nsXYTXNu.thmLt.cn
http://9f1nPrYw.thmLt.cn
http://2Ak1auxR.thmLt.cn
http://HS6m7mN5.thmLt.cn
http://dR1kXz4O.thmLt.cn
http://CD7KAb6Q.thmLt.cn
http://RaxA3uAS.thmLt.cn
http://HQ31KGvB.thmLt.cn
http://NPZEUcxR.thmLt.cn
http://PVsh8ecL.thmLt.cn
http://RGKdGV1o.thmLt.cn
http://Dhd6V20t.thmLt.cn
http://pbBZYDJ3.thmLt.cn
http://P2OayD9Y.thmLt.cn
http://QDz2bGYA.thmLt.cn
http://WOU5Q47l.thmLt.cn
http://OGGmH8uI.thmLt.cn
http://X1gq75sW.thmLt.cn
http://kPCsWbsY.thmLt.cn
http://EWieuRPS.thmLt.cn
http://j6nVq1a6.thmLt.cn
http://www.dtcms.com/a/365425.html

相关文章:

  • 理解用户需求
  • word删除指定页面
  • Django get_or_create 方法详解
  • AP5414:高效灵活的LED驱动解决方案,点亮创意生活
  • LangGraph MCP智能体开发
  • Docker学习笔记(一):容器基础、生态与安装实践
  • XSENS VISION NAVIGATOR助力智能城市自动化清洁机器人精确导航
  • 深度学习三大框架对比评测:PaddlePaddle、PyTorch 与 TensorFlow
  • 【2025ICCV】基于 ​CL-Splats​ 的3D高斯溅射模型
  • 第二家公司虽然用PowerBI ,可能更适合用以前的QuickBI
  • TypeScript 与 Java 重载机制对比
  • WebAppClassLoader(Tomcat)和 LaunchedURLClassLoader(Spring Boot)类加载器详解
  • “路桥养护”--奏响城市交通的安全乐章
  • 前端框架(Vue/React):界面更新的运行链路
  • Kafka Topic(主题)详解
  • 四维轻云:多期地理数据管理的得力助手
  • 14,FreeRTOS二值信号量操作
  • 差分隐私在运营指标:ABP 的 DP 计数器与噪声预算
  • 一文读懂RAG:从生活场景到核心逻辑,AI“查资料答题”原来这么简单
  • Wan2.2AllInOne - Wan2.2极速视频生成模型,4步极速生成 ComfyUI工作流 一键整合包下载
  • Java全栈学习笔记29
  • 关于牙科、挂号、医生类小程序或管理系统项目 项目包含微信小程序和pc端两部分
  • 从一次Crash分析Chromium/360浏览器的悬空指针检测机制:raw_ref与BackupRefPtr揭秘
  • 如何修复“您的连接不是私密连接”警告?
  • sentinel实现控制台与nacos数据双向绑定
  • Android音频学习(十六)——CreateTrack
  • 深度学习——CNN实例手写数字
  • 涉私数据安全与可控匿名化利用机制研究(下)
  • Triton Linalg - WrapFuncBodyWithSingleBlockPass
  • 软件设计师备考-(十) 多媒体基础