当前位置: 首页 > news >正文

【ES】--Elasticsearch的分词器详解

目录

  • 一、前言
  • 二、分词器原理
    • 1、常用分词器
    • 2、ik分词器模式
    • 3、指定索引的某个字段进行分词测试
      • 3.1、采用ts_match_analyzer进行分词
      • 3.2、采用standard_analyzer进行分词
  • 三、如何调整分词器
    • 1、已存在的索引调整分词器
    • 2、特别的词语不能被拆开

一、前言

最近项目需求,针对客户提出搜索引擎业务要做到自定义个性化,如输入简体或繁体能能够互相查询、有的关键词不能被分词搜索等等。为更好解决这些问题,“分词器”的原理和使用至关重要。

二、分词器原理

当 ES 自带的分词器不能满足需求的情况下,可以通过组合不同的 Character Filters,Tokenizer,Token Filter 来实现。
在这里插入图片描述
首先字符串经过字符过滤器(character filter),他们的工作是在分词前处理字符串。字符过滤器能够去除 HTML 标记,或者转化为“&”为“and”。
然后,分词器(tokenizer)被分词为独立的词【按照一定的规则,对字符串进行划分单词】。一个简单的分词器(tokenizer)可以根据空格或逗号将词语分开。
最后,每个词都通过分词过滤器(Token filter)【将切分的单词进行加工、大小写转换、删除stopwords、增加同义词等】,它可以修改词(例如将“Quick”转为小写),去掉词(例如停用词像“a”、“and”、“the”等等),或者增加词(例如同义词像“a”、“and”、“the”等等)或者增加词(例如同义词像“jump”

相关文章:

  • postman执行批量测试
  • 如何把手机平板变为电脑的屏幕
  • MySQL-----DCL基础操作
  • 《Python 网络爬虫简易速速上手小册》第1章:Python 网络爬虫基础(2024 最新版)
  • Linux(二)
  • 【数据结构】09 线性表的链式存储实现
  • 【DDD】学习笔记-四色建模法
  • 2024年2月5日-2月11日周报
  • 论文介绍 VolumeDiffusion
  • 新版UI界面影视小程序亲测无问题带详细搭建教程
  • Python进阶--爬取美女图片壁纸(基于回车桌面网的爬虫程序)
  • Bert与ChatGPT
  • 专业排版设计软件:QuarkXPress 2024 for mac中文激活版
  • 【漏洞复现】狮子鱼CMS文件上传漏洞(wxapp.php)
  • python+flask+django医院预约挂号系统6nrhh
  • 3、安全开发-Python-协议库爆破FTPSSHRedisMYSQLSMTP等
  • 【C语言】三子棋游戏实现代码
  • 浅谈人工智能之深度学习~
  • Redis底层原理
  • 休斯顿NASA太空机器人进入最后测试阶段,或可模拟人类执行外星任务!
  • 49:49白热化,美参议院对新关税政策产生巨大分歧
  • 新能源车盈利拐点:8家上市车企去年合计净利854亿元,多家扭亏
  • 空调+零食助顶级赛马备战,上海环球马术冠军赛将焕新登场
  • 剑指3000亿产业规模,机器人“武林大会”背后的无锡“野望”
  • 美国第一季度经济环比萎缩0.3%
  • 奔驰一季度利润降四成,受美国加征关税影响放弃全年盈利展望