当前位置: 首页 > wzjs >正文

教做衣服网站网站备案大概需要多久

教做衣服网站,网站备案大概需要多久,wordpress页眉描述,润东电子科技 网站建设在 Elasticsearch 中,自定义词典是优化分词效果的核心手段,尤其适用于中文或专业领域的文本处理。以下是关于 ES 自定义词典的完整指南: 为什么需要自定义词典? 默认分词不足: ES 自带的分词器(如 Standard…

在 Elasticsearch 中,自定义词典是优化分词效果的核心手段,尤其适用于中文或专业领域的文本处理。以下是关于 ES 自定义词典的完整指南:

  1. 为什么需要自定义词典?
    默认分词不足:
    ES 自带的分词器(如 Standard Analyzer)对中文处理效果差(按字拆分),IK 分词器虽支持中文,但默认词库可能缺少特定领域词汇(如 “大模型”“元宇宙”)。
    业务需求:
    确保专业术语不被拆分(如 “机器学习” 不应拆分为 “机器”“学习”);
    识别品牌名、人名、地名等专有名词;
    处理网络热词或缩写(如 “yyds”“内卷”)。
  2. 如何配置自定义词典?
    以 IK 分词器为例,步骤如下:
    步骤 1:创建词典文件
    在 ES 安装目录下的 plugins/ik/config 目录中创建自定义词典文件(如 custom/mydict.dic):
    步骤 2:修改配置文件
    编辑 plugins/ik/config/IKAnalyzer.cfg.xml,添加自定义词典路径:
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties><comment>IK Analyzer 扩展配置</comment><!--用户可以在这里配置自己的扩展字典 --><entry key="ext_dict">custom/mydic.dic</entry><!--用户可以在这里配置自己的扩展停止词字典--><entry key="ext_stopwords">custom/stopwords.dic</entry><!--用户可以在这里配置远程扩展字典 --><!-- <entry key="remote_ext_dict">words_location</entry> --><!--用户可以在这里配置远程扩展停止词字典--><!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>

路径规则:
使用 正斜杠 / 或分号 ; 分隔多个词典;
路径相对于 ik/config 目录(如 custom/mydict.dic 对应实际路径 plugins/ik/config/custom/mydict.dic)
我的myidct.dic自定义词典为:

有限公司
有限责任公司
人工智能
许家印
前首富

步骤 3:重启 ES 并验证

POST http://localhost:9200/_analyze
{"analyzer": "ik_smart","text": "中国前首富许家印"
}

结果:

{"tokens": [{"token": "中国","start_offset": 0,"end_offset": 2,"type": "CN_WORD","position": 0},{"token": "前首富","start_offset": 2,"end_offset": 5,"type": "CN_WORD","position": 1},{"token": "许家印","start_offset": 5,"end_offset": 8,"type": "CN_WORD","position": 2}]
}

去掉mydic.dic里面的内容,重启es,不采用自定义词典后的分词效果如下

{"tokens": [{"token": "中国","start_offset": 0,"end_offset": 2,"type": "CN_WORD","position": 0},{"token": "前","start_offset": 2,"end_offset": 3,"type": "CN_CHAR","position": 1},{"token": "首富","start_offset": 3,"end_offset": 5,"type": "CN_WORD","position": 2},{"token": "许","start_offset": 5,"end_offset": 6,"type": "CN_CHAR","position": 3},{"token": "家","start_offset": 6,"end_offset": 7,"type": "CN_CHAR","position": 4},{"token": "印","start_offset": 7,"end_offset": 8,"type": "CN_CHAR","position": 5}]
}

-----------------------------------------------手动分割线---------------------------------------------------

在 Elasticsearch 中,自定义词典和停用词是两种功能完全相反的配置,分别用于增强分词精度和过滤冗余信息。以下是核心区别和应用场景:

  1. 核心区别对比
    在这里插入图片描述
  2. 示例对比

场景:分析文本 “我爱自然语言处理”
自定义词典配置:

<entry key="ext_dict">custom/nlp.dic</entry>

nlp.dic 内容:

自然语言处理

分词结果:

["我", "爱", "自然语言处理"]  // “自然语言处理”被视为一个整体

停用词配置:

<entry key="ext_stopwords">stopwords.dic</entry>

stopwords.dic 内容:

我
的
了

分词结果:

["爱", "自然", "语言", "处理"]  // “我”被过滤
  1. 适用场景
    在这里插入图片描述
http://www.dtcms.com/wzjs/794345.html

相关文章:

  • 咸阳学校网站建设价格昆明企业网站制作公司
  • 房地产开发公司网站建设方案模板网页制作自学教程
  • 怎么建立一个网站存照片视频的链接郑州快速网站建设
  • 衡阳做网站的有免费做海报的网站吗
  • 网站关键字中国建筑劳务分包平台
  • 乐山做网站的公司37网页游戏中心
  • 坪山网站建设多少钱抖音seo公司
  • 网站免费优化中小企业网站制作模板
  • 网站建设中企动力朔州做网站的公司
  • 不用代码可以做网站设计吗推广网站加盟
  • 网站新站合肥制作网站单位有哪些
  • 网站建设与运营在线考试商城首页网站
  • 美食网站开发的目的搜索引擎推广的方法有
  • 给教育类做网站龙华观澜网站建设
  • 网站保持排名网络营销方式和方法
  • 电子商务网站建设策划书模板群辉可以做网站服务器吗
  • 深圳市网站设计公个人网站可以干什么
  • 石景山网站制作建设公司气象网站建设管理总结
  • 台前做网站的公司廊坊seo整站优化软件
  • 烟台广告公司网站建设短信推广
  • 安徽省建设协会网站无忧网站建设哪家好
  • 要做一个网站需要准备什么百度点击优化
  • 做卖车网站需要什么手续涪城网站建设
  • 北城旺角做网站的月付商城网站建站
  • 网站关键词指数查询工具山东网站备案公司
  • 建设银行手机版官方网站投资公司注册
  • 蚌埠市建设学校网站网站流量查询站长之家
  • 济南手机建站哪家好定期做图书推荐的网站
  • 有没有专门发布毕业设计代做网站河北省廊坊市建设银行网站
  • idc网站是用什么语言做的天津seo管理平台