当前位置: 首页 > news >正文

6.IK分词器拓展词库

比如一些行业专业词汇、简单无意义词(例如:的、得、地、是等)、网络流行词、后来形成的词、再或者一些禁忌词(比如:领导人的名字、黄赌毒犯罪等词要排除的)

在es的插件目录下查找配置文件:

 找到IKAnalyzer.cfg.xml文件并进行修改:

 

向stopword.dic文件中添加如下词:

以上修改完成后,需要重启ES。

注意:创建ext.dic文件时候,注意文件的编码格式,最好拷贝 IKAnalyzer.cfg.xml文件进行修改。

使用file命令查看:

POST /_analyze
{
  "text":"想白嫖吗?我是比较奥利给的",
  "analyzer": "ik_smart"
}

{
  "tokens" : [
    {
      "token" : "想",
      "start_offset" : 0,
      "end_offset" : 1,
      "type" : "CN_CHAR",
      "position" : 0
    },
    {
      "token" : "白嫖",
      "start_offset" : 1,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "吗",
      "start_offset" : 3,
      "end_offset" : 4,
      "type" : "CN_CHAR",
      "position" : 2
    },
    {
      "token" : "我",
      "start_offset" : 5,
      "end_offset" : 6,
      "type" : "CN_CHAR",
      "position" : 3
    },
    {
      "token" : "是",
      "start_offset" : 6,
      "end_offset" : 7,
      "type" : "CN_CHAR",
      "position" : 4
    },
    {
      "token" : "比较",
      "start_offset" : 7,
      "end_offset" : 9,
      "type" : "CN_WORD",
      "position" : 5
    },
    {
      "token" : "奥利给",
      "start_offset" : 9,
      "end_offset" : 12,
      "type" : "CN_WORD",
      "position" : 6
    }
  ]
}
 

相关文章:

  • 利用Tomcat本地部署Javaweb项目(windows)
  • 从CentOS迁移到TencentOS:9%成功率的一键替换实操
  • CppCon 2016 学习:The Exception Situation
  • Python编程基础
  • 计算机网络学习笔记:TCP流控、拥塞控制
  • 【QT】控件二(输入类控件、多元素控件、容器类控件与布局管理器)
  • 前端开发面试题总结-vue2框架篇(三)
  • 【6G技术探索】MCP协议整理分享
  • 黑马python(七)
  • 使用SymPy进行欧拉角与RPY角的符号与数值计算
  • 网络层协议 IP 协议介绍 -- IP 协议,网段划分,私有 IP 和 公网 IP,路由
  • java复习 20
  • VB逆向基础(一)
  • 【数据库】KingbaseES在线体验平台深度测试:从基础操作到增删改查实战
  • ffmpeg webm 透明通道视频转成rgba图片
  • 九日集训第六天
  • 基于Qt的配置管理界面实现:保存与加载配置文件
  • 338比特位技术
  • Day03_数据结构(手写)
  • rockylinuxapache和Linux服务配置
  • 廊坊网站建设-纵横网络+网站/无屏蔽搜索引擎
  • 南漳网站制作/宁波seo快速优化教程
  • app手机应用开发公司/热门seo推广排名稳定
  • 中国有哪些b2b的企业/朝阳区搜索优化seosem
  • 重庆秀山网站建设价格/seo是什么职业岗位
  • 小程序是什么东西/seo教程排名第一