当前位置: 首页 > wzjs >正文

网站尾部设计全心代发17做网站

网站尾部设计,全心代发17做网站,网络推广竞价是什么,做网站1200ElasticSearch 分词器介绍及测试:Standard(标准分词器)、English(英文分词器)、Chinese(中文分词器)、IK(IK 分词器) ElasticSearch 分词器介绍及测试1. Standard Analyz…

ElasticSearch 分词器介绍及测试:Standard(标准分词器)、English(英文分词器)、Chinese(中文分词器)、IK(IK 分词器)

  • ElasticSearch 分词器介绍及测试
    • 1. Standard Analyzer(标准分词器)
    • 2. English Analyzer(英文分词器)
    • 3. Chinese Analyzer(中文分词器)
    • 4. IK Analyzer(IK 分词器)
    • 官网资源
    • 小结

本文 ElasticSearch 版本为:7.17.9,为了对应 spring-boot-starter-parent2.7.9 版本

ElasticSearch 分词器介绍及测试

ElasticSearch 提供了多种内置的分词器(Analyzer),用于文本的分析和分词。分词器是文本分析的核心,决定了如何把输入的文本字符串分解成一个个“词项”(token)。不同的分词器适用于不同的语言和场景,如中文、英文等。本文将介绍常用的分词器及其应用。

1. Standard Analyzer(标准分词器)

  • 功能standard 是 ElasticSearch 的默认分词器,基于 Unicode 文本分解标准,适用于多种语言。它会将文本中的标点符号、常见停用词移除,并将文本转化为小写。
  • 用途:适用于大多数通用场景,尤其是处理混合语言或没有特殊分词需求的情况。
  • 分词示例
    • 输入:"The quick brown fox"
    • 输出:["the", "quick", "brown", "fox"]

使用 ElasticSearch 的可视化界面 Kibana 的调试工具 Dev Tools 调用解析接口测试:

# `standard` 是 ElasticSearch 的默认分词器,基于 Unicode 文本分解标准,适用于多种语言。它会将文本中的标点符号、常见停用词移除,并将文本转化为小写。
POST /_analyze
{"analyzer": "standard","text": "The quick brown fox"
}

解析结果:

#! Elasticsearch built-in security features are not enabled. Without authentication, your cluster could be accessible to anyone. See https://www.elastic.co/guide/en/elasticsearch/reference/7.17/security-minimal-setup.html to enable security.
{"tokens" : [{"token" : "the","start_offset" : 0,"end_offset" : 3,"type" : "<ALPHANUM>","position" : 0},{"token" : "quick","start_offset" : 4,"end_offset" : 9,"type" : "<ALPHANUM>","position" : 1},{"token" : "brown","start_offset" : 10,"end_offset" : 15,"type" : "<ALPHANUM>","position" : 2},{"token" : "fox","start_offset" : 16,"end_offset" : 19,"type" : "<ALPHANUM>","position" : 3}]
}

2. English Analyzer(英文分词器)

  • 功能english 分词器专用于英文文本的分析,除了进行基本的分词,还会进行停用词过滤,并将所有文本转换为小写字母。
  • 用途:适用于英文文本的分析,特别是在英文搜索引擎或英文数据处理中。
  • 分词示例
    • 输入:"The quick brown fox"
    • 输出:["quick", "brown", "fox"]the 被移除作为停用词)

使用 ElasticSearch 的可视化界面 Kibana 的调试工具 Dev Tools 调用解析接口测试:

# `english` 分词器专用于英文文本的分析,除了进行基本的分词,还会进行停用词过滤,并将所有文本转换为小写字母。
POST /_analyze
{"analyzer": "english","text": "The quick brown fox"
}

解析结果:

#! Elasticsearch built-in security features are not enabled. Without authentication, your cluster could be accessible to anyone. See https://www.elastic.co/guide/en/elasticsearch/reference/7.17/security-minimal-setup.html to enable security.
{"tokens" : [{"token" : "quick","start_offset" : 4,"end_offset" : 9,"type" : "<ALPHANUM>","position" : 1},{"token" : "brown","start_offset" : 10,"end_offset" : 15,"type" : "<ALPHANUM>","position" : 2},{"token" : "fox","start_offset" : 16,"end_offset" : 19,"type" : "<ALPHANUM>","position" : 3}]
}

3. Chinese Analyzer(中文分词器)

  • 功能chinese 分词器专为中文文本设计,基于分词字典并结合最大匹配法等技术,将中文文本分解成多个词项。
  • 用途:适用于中文文本的分词处理,特别是中文搜索引擎和中文语料处理。对中文的解析很差
  • 分词示例
    • 输入:"今天天气很好"
    • 期望的输出:["今天", "天气", "很", "好",]
    • 实际的输出:["今","天", "天","气", "很", "好"]

使用 ElasticSearch 的可视化界面 Kibana 的调试工具 Dev Tools 调用解析接口测试:

# `chinese` 分词器专为中文文本设计,基于分词字典并结合最大匹配法等技术,将中文文本分解成多个词项。
# `chinese` 分词器专为中文文本设计,基于分词字典并结合最大匹配法等技术,将中文文本分解成多个词项。
POST /_analyze
{"analyzer": "chinese","text": "今天天气很好"
}

解析结果:

#! Elasticsearch built-in security features are not enabled. Without authentication, your cluster could be accessible to anyone. See https://www.elastic.co/guide/en/elasticsearch/reference/7.17/security-minimal-setup.html to enable security.
{"tokens" : [{"token" : "今","start_offset" : 0,"end_offset" : 1,"type" : "<IDEOGRAPHIC>","position" : 0},{"token" : "天","start_offset" : 1,"end_offset" : 2,"type" : "<IDEOGRAPHIC>","position" : 1},{"token" : "天","start_offset" : 2,"end_offset" : 3,"type" : "<IDEOGRAPHIC>","position" : 2},{"token" : "气","start_offset" : 3,"end_offset" : 4,"type" : "<IDEOGRAPHIC>","position" : 3},{"token" : "很","start_offset" : 4,"end_offset" : 5,"type" : "<IDEOGRAPHIC>","position" : 4},{"token" : "好","start_offset" : 5,"end_offset" : 6,"type" : "<IDEOGRAPHIC>","position" : 5}]
}

4. IK Analyzer(IK 分词器)

  • 官网资源:IK Analyzer GitHub 页面
  • 功能IK Analyzer 是一个开源的中文分词器,专门用于处理中文文本。它结合了多种中文分词技术,支持细粒度和粗粒度的分词。
  • 安装:需要作为 ElasticSearch 插件安装,支持通过精确模式和智能模式两种分词策略。
  • 分词示例
    • 输入:"今天天气不错,适合出游"
    • ik_smart(最少切分)["今天天气", "不错", "适合", "出游"]
    • ik_max_word(最细切分)["今天天气", "今天", "天天", "天气", "不错", "适合", "合出", "出游"]
  • 扩展词典:支持自定义扩展词典,用户可以添加特定词语、行业术语、网络热词等。【安装IK分词器;IK分词器配置扩展词库:配置扩展字典-扩展词,配置扩展停止词字典-停用词】

使用 ElasticSearch 的可视化界面 Kibana 的调试工具 Dev Tools 调用解析接口测试:

# `IK Analyzer` ik_smart(最少切分)。
POST /_analyze
{"analyzer": "ik_smart","text": "今天天气不错,适合出游"
}

解析结果:

#! Elasticsearch built-in security features are not enabled. Without authentication, your cluster could be accessible to anyone. See https://www.elastic.co/guide/en/elasticsearch/reference/7.17/security-minimal-setup.html to enable security.
{"tokens" : [{"token" : "今天天气","start_offset" : 0,"end_offset" : 4,"type" : "CN_WORD","position" : 0},{"token" : "不错","start_offset" : 4,"end_offset" : 6,"type" : "CN_WORD","position" : 1},{"token" : "适合","start_offset" : 7,"end_offset" : 9,"type" : "CN_WORD","position" : 2},{"token" : "出游","start_offset" : 9,"end_offset" : 11,"type" : "CN_WORD","position" : 3}]
}

使用 ElasticSearch 的可视化界面 Kibana 的调试工具 Dev Tools 调用解析接口测试:

# `IK Analyzer` ik_smart(最少切分)。
POST /_analyze
{"analyzer": "ik_smart","text": "今天天气不错,适合出游"
}

解析结果:

#! Elasticsearch built-in security features are not enabled. Without authentication, your cluster could be accessible to anyone. See https://www.elastic.co/guide/en/elasticsearch/reference/7.17/security-minimal-setup.html to enable security.
{"tokens" : [{"token" : "今天天气","start_offset" : 0,"end_offset" : 4,"type" : "CN_WORD","position" : 0},{"token" : "今天","start_offset" : 0,"end_offset" : 2,"type" : "CN_WORD","position" : 1},{"token" : "天天","start_offset" : 1,"end_offset" : 3,"type" : "CN_WORD","position" : 2},{"token" : "天气","start_offset" : 2,"end_offset" : 4,"type" : "CN_WORD","position" : 3},{"token" : "不错","start_offset" : 4,"end_offset" : 6,"type" : "CN_WORD","position" : 4},{"token" : "适合","start_offset" : 7,"end_offset" : 9,"type" : "CN_WORD","position" : 5},{"token" : "合出","start_offset" : 8,"end_offset" : 10,"type" : "CN_WORD","position" : 6},{"token" : "出游","start_offset" : 9,"end_offset" : 11,"type" : "CN_WORD","position" : 7}]
}

官网资源

你可以访问 ElasticSearch 官方文档页面,获取有关不同分词器和分析器的详细介绍,以及如何配置和使用它们:

  • ElasticSearch 分析器官方文档

小结

ElasticSearch 提供了多种内置分词器,能够适应不同语言和文本格式的需求。选择合适的分词器对于实现高效的搜索和分析至关重要。你可以根据实际的应用场景选择 standardchineseenglish 等分词器,或根据需要创建自定义分词器来满足特定的文本分析需求。如果你有特殊的需求,可以深入研究分词器的配置选项和扩展方式。


文章转载自:

http://pQ4ZzWEB.Lfsbk.cn
http://LovWMyoB.Lfsbk.cn
http://18vgIB8o.Lfsbk.cn
http://hwLUwrz0.Lfsbk.cn
http://HMLtBVkK.Lfsbk.cn
http://y6iB1idK.Lfsbk.cn
http://xLixRQzL.Lfsbk.cn
http://0xMmZLgi.Lfsbk.cn
http://BWYFbPSi.Lfsbk.cn
http://VRZ0vcll.Lfsbk.cn
http://f7o7OeLl.Lfsbk.cn
http://JDvJ6o6i.Lfsbk.cn
http://nAV5J3R0.Lfsbk.cn
http://TKGn7k40.Lfsbk.cn
http://wHZUUuuP.Lfsbk.cn
http://gbIA5NaC.Lfsbk.cn
http://W2TyK6oi.Lfsbk.cn
http://dB4nkaii.Lfsbk.cn
http://JqvbfwAk.Lfsbk.cn
http://8qko5Hx6.Lfsbk.cn
http://R730AFrq.Lfsbk.cn
http://041KG48B.Lfsbk.cn
http://32wYfpT3.Lfsbk.cn
http://hy7x7glX.Lfsbk.cn
http://c4G6qyxK.Lfsbk.cn
http://rRM0PE9X.Lfsbk.cn
http://1zIWqLJs.Lfsbk.cn
http://G2dpuLiX.Lfsbk.cn
http://CIVaOYZg.Lfsbk.cn
http://TxhzoPSq.Lfsbk.cn
http://www.dtcms.com/wzjs/686002.html

相关文章:

  • 网站群的建设东莞市美时家具营销型网站
  • 百度网站排名哪家好网站做的文字乱码
  • 网站建设销售总结apache搭建wordpress如何
  • 做网站编辑的发展方向晋升数码产品网站建设策划书
  • 网站建设属于哪个分类编码济南高端网站建设公司
  • 株洲网站建设报价方案有哪些比较好的企业网站建设
  • 宿州银行网站建设沈阳化工大学建设工程
  • 顺德网站制作公司wordpress置顶重复
  • 网站备案信息找回网站 公司形象
  • 大型网站模板腾讯云服务器网站域名备案
  • 影响网站收录的因素医疗网站建设讯息
  • 一家做特卖的网站叫什么时候wordpress开源程序建站教程
  • 网站建设外包注意事项深圳有没有做网站的
  • dedecms怎么把一个网站的文章导出导到另一个站里经典重庆论坛畅谈重庆
  • 茶叶网站flash模板兼职设计师在哪里接活
  • 一个专业做设计的网站做家教在哪个网站
  • 网站主题定位分类目录采用的是什么编目
  • 不花钱网站推广石家庄做网站比较好的公司有哪些
  • 网站关键词百度没有收录给企业做网站
  • 班级网站网页设计医院美容网站建设
  • 我国网站建设的不足头像制作软件app
  • 关键词在线优化乐天seo培训中心
  • 四川住房与城乡城乡建设厅网站专业营销型网站建设公司
  • 如何计算网站pv武昌网站建设制作
  • 重庆网站设计系统wordpress 外部链接
  • 鸟人高端网站建设wordpress调整页面布局
  • 成品网站 售卖做网站发违规内容 网警抓不抓
  • 继电器做网站wordpress文章如何备份
  • 现在做网站开发吗在线制作免费生成水印
  • 银川网站建设怎么样微信里我的微站是怎么弄的