当前位置: 首页 > wzjs >正文

网络公司网站网络推广的公司更可靠

网络公司网站,网络推广的公司更可靠,班级网站模板html,计算机类专业哪个好拼音分词器:要实现根据字母做补全,就必须对文档按照拼音分词。在GitHub上恰好有elasticsearch的拼音分词插件。 地址:https://github.com/medcl/elasticsearch-analysis-pinyin 自定义分词器:elasticsearch中分词器(analyzer)的组成包含三部分…
  1. 拼音分词器:要实现根据字母做补全,就必须对文档按照拼音分词。在GitHub上恰好有elasticsearch的拼音分词插件。

    地址:https://github.com/medcl/elasticsearch-analysis-pinyin

    自定义分词器:elasticsearch中分词器(analyzer)的组成包含三部分:

    • character filters:在tokenizer之前对文本进行处理。例如删除字符、替换字符

    • tokenizer:将文本按照一定的规则切割成词条(term)。例如keyword,就是不分词;还有ik smart

    • tokenizer filter:将tokenizer输出的词条做进一步处理。例如大小写转换、同义词处理、拼音处理等

工作流程示例:

要想自定义分词器的时候要在创建索引库的时候,通过setting来配置自定义的analyzer

{"settings": {"analysis": {"analyzer": {"my_analyzer": {"tokenizer": "ik_max_word","filter": ["py"]}},"filter": {"py": {"type": "pinyin","keep_full_pinyin": false,"keep_joined_full_pinyin": true,"keep_original": true,"limit_first_letter_length": 16,"remove_duplicated_term": true,"none_chinese_pinyin_tokenize": false}}}},"mappings": {// 这里如果后续要定义具体的字段映射,可补充类似如下结构(示例,根据实际需求调整)// "properties": {//   "field_name": {//     "type": "text",//     "analyzer": "my_analyzer"//   }// }}
}

配置说明:

  1. analysis 部分

    :用于定义分词相关的分析器、过滤器等。

    • analyzer:定义名为 my_analyzer 的自定义分析器,使用 ik_max_word 分词器(需确保已安装 IK 分词器插件,它擅长中文分词,会尽可能细地拆分中文文本 ),并搭配名为 py 的词元过滤器。

    • filter:定义py过滤器,类型是pinyin(需确保已安装 Elasticse arch 拼音分词相关插件,用于处理中文拼音转换 ),各参数含义:

      • keep_full_pinyin:是否保留完整拼音,这里设为 false

      • keep_joined_full_pinyin:是否保留连接后的完整拼音,设为 true ,比如 “中国” 可能会生成 “zhongguo” 这样的连续拼音形式 。

      • keep_original:是否保留原始文本,设为 true ,即分词时会同时保留原始中文词和拼音转换后的结果 。

      • limit_first_letter_length:限制首字母缩写的长度,这里为 16 ,比如中文词语拼音首字母拼接后长度限制 。

      • remove_duplicated_term:是否移除重复的词项,设为 true ,避免重复的拼音或文本进入倒排索引 。

      • none_chinese_pinyin_tokenize:是否对非中文进行拼音分词,设为 false ,即只处理中文相关的拼音转换 。

  2. mappings 部分:目前是空的,若要让某个字段使用这个自定义分词器 my_analyzer ,需要在 properties 里定义具体字段及映射规则,比如有一个 content 字段要做文本分词,可写成:

    "mappings": {"properties": {"content": {"type": "text","analyzer": "my_analyzer"}}
    }

自定义分词器适合在创建倒排索引的时候使用,但不能在搜索的时候使用。因为在创建倒排索引的时候会有同音字,虽然在中文的时候会进行新的索引创建,但是在谐音的情况下就会在一个相同的拼音词条之内有着两个不同汉字意思的词语分词。因此在创建索引的时候应该使用自定义的分词器,在字段搜索的时候应该使用IK分词器。

"analyzer":"my_analyzer"
"search_analyzer":"ik_smart"

 

http://www.dtcms.com/wzjs/225897.html

相关文章:

  • 专业网站建设特点分析石家庄seo关键词
  • 网站加黑链宁德市人民医院
  • 平面设计素材网seo快排优化
  • 宁波外贸网站设计公司想做一个网站
  • 上海申远建筑设计有限公司seo 论坛
  • 站群系统破解版广州疫情防控措施
  • 济南网站建设专业公司16种营销模型
  • wordpress 外部链接跳转seo编辑的工作内容
  • 网络营销的形式网站营销优化百度涨
  • 中山网站优化排名福州网站seo优化公司
  • 亚马逊的海外网站怎么做央视新闻
  • 涟水做网站济南网站设计
  • 永久免费wap建站抖音关键词优化排名靠前
  • 凤泉网站建设搜狗seo排名软件
  • 亚洲网站建设中个人免费网站建设
  • wordpress for search百度 seo排名查询
  • 响应式购物网站模板搜索引擎推广步骤
  • 做外贸 网站邮箱申请怎么免费创建网站
  • 镇江地区做网站的公司今日头条军事新闻
  • 青岛网站开发工资首页关键词怎么排名靠前
  • 响应式网站什么意思我的百度账号
  • 温州人才网站开发今天重大新闻事件
  • 网站设计需要考虑哪些基本原则网络营销成功的品牌
  • 网站建设名牌竞价外包运营
  • 一个新的网站怎么做宣传苏州seo免费咨询
  • 摄影网站开发背景百度网盘下载速度慢破解方法
  • 软件工网站开发课程设计报告搜索引擎大全排行榜
  • 什么浏览器不限制网站wordpress建站
  • 家教网站域名怎么做营销型网站的推广方法
  • html留言簿网站基本框架搭建免费seo关键词优化排名