当前位置: 首页 > wzjs >正文

西安网站制作设计定制手机版的学习网站

西安网站制作设计定制,手机版的学习网站,网站引导页动画,wordpress 轮播开发jieba中文分词模块,详细使用教程 **✅ 1. 安装 jieba****✅ 2. 基本使用****2.1 精确模式(最常用)****2.2 全模式(会把所有可能的词都列出来)****2.3 搜索引擎模式** **✅ 3. 处理文件****✅ 4. 添加自定义词典****4.1 添加新词**…

jieba中文分词模块,详细使用教程

    • **✅ 1. 安装 jieba**
    • **✅ 2. 基本使用**
      • **2.1 精确模式(最常用)**
      • **2.2 全模式(会把所有可能的词都列出来)**
      • **2.3 搜索引擎模式**
    • **✅ 3. 处理文件**
    • **✅ 4. 添加自定义词典**
      • **4.1 添加新词**
      • **4.2 词频调整**
      • **4.3 加载自定义词典**
    • **✅ 5. 词性标注(jieba.posseg)**
    • **✅ 6. 关键词提取**
      • **6.1 TF-IDF 提取关键词**
      • **6.2 TextRank 提取关键词**
    • **🔥 总结**

jieba 是 Python 中文分词的 神器,可以用来对中文文本进行 精确分词、全模式分词、搜索引擎分词 等。


✅ 1. 安装 jieba

如果你还没安装:

pip install jieba

✅ 2. 基本使用

2.1 精确模式(最常用)

适用于文本分析、NLP任务

import jiebatext = "我爱自然语言处理"
words = jieba.lcut(text)  # 精确分词
print(words)

输出

['我', '爱', '自然语言处理']

2.2 全模式(会把所有可能的词都列出来)

适用于搜索引擎、关键词提取

jieba.lcut("我爱自然语言处理", cut_all=True)

输出

['我', '爱', '自然', '自然语言', '自然语言处理', '语言', '语言处理', '处理']

🚀 优点:可以发现所有可能的词组
⚠️ 缺点:会产生很多冗余的词,通常不用于 NLP 任务


2.3 搜索引擎模式

适用于 搜索引擎索引

jieba.lcut_for_search("小明硕士毕业于中国科学院计算技术研究所")

输出

['小明', '硕士', '毕业', '于', '中国', '中国科学院', '科学院', '计算', '计算技术', '计算技术研究所', '技术', '研究所']

🚀 特点:会把长词拆分成多个短词,方便搜索引擎检索。


✅ 3. 处理文件

如果你要对整篇文章进行分词:

with open("article.txt", "r", encoding="utf-8") as f:text = f.read()words = jieba.lcut(text)
print(" ".join(words))  # 用空格连接分词结果

适用于:

  • 处理新闻、论文、小说等文本
  • 数据预处理(如 Word2Vec)

✅ 4. 添加自定义词典

默认 jieba 可能会漏掉专业术语,需要自己添加词汇!

4.1 添加新词

jieba.add_word("深度学习")
jieba.add_word("自然语言处理")

4.2 词频调整

jieba.suggest_freq("自然语言", tune=True)

适用于 纠正错误的分词,例如 “自然语言” 被切成 “自然” 和 “语言”。

4.3 加载自定义词典

如果有大量术语(比如医学、金融、游戏术语),建议用自定义词典

jieba.load_userdict("my_dict.txt")

my_dict.txt 内容示例:

深度学习 10
机器学习 5
自然语言处理 8

格式:

  • 词语(必填)
  • 词频(可选)
  • 词性(可选)

✅ 5. 词性标注(jieba.posseg)

jieba.posseg 可以给每个词添加 词性(如名词、动词、形容词):

import jieba.posseg as psegwords = pseg.lcut("我爱自然语言处理")
for word, flag in words:print(f"{word} ({flag})")

输出

(r)(v)  自然语言处理 (n)

常见词性

  • n → 名词
  • v → 动词
  • adj → 形容词
  • r → 代词
  • m → 数量词

✅ 6. 关键词提取

6.1 TF-IDF 提取关键词

import jieba.analysetext = "人工智能是计算机科学的一个分支,它使机器能够模仿人类的智能行为。"
keywords = jieba.analyse.extract_tags(text, topK=3, withWeight=True)for word, weight in keywords:print(f"{word}: {weight}")

输出

人工智能: 0.572
计算机科学: 0.482
机器: 0.367

6.2 TextRank 提取关键词

jieba.analyse.textrank(text, topK=3, withWeight=True)

区别

  • TF-IDF 适用于短文本(新闻、微博)
  • TextRank 适用于长文本(论文、小说)

🔥 总结

功能jieba 代码
精确分词jieba.lcut(text)
全模式分词jieba.lcut(text, cut_all=True)
搜索引擎模式jieba.lcut_for_search(text)
添加自定义词jieba.add_word("自然语言处理")
词性标注pseg.lcut(text)
TF-IDF 关键词提取jieba.analyse.extract_tags(text, topK=3)
TextRank 关键词提取jieba.analyse.textrank(text, topK=3)
http://www.dtcms.com/wzjs/565923.html

相关文章:

  • 网站被做跳转修改wordpress 的权限
  • 山东专业的网站建设大学院系网站建设
  • python网站开发用什么软件优化网站建设人员组成
  • 企业网站怎么做毕业设计开网站买自己做的东西
  • 手机网站建设开发报价前端做网站使用的软件工具
  • 网站制作定制18免费客户管理软件哪个好用
  • 网站创意模板广州机械网站建设外包
  • 中国城乡建设部人力网站首页九江seo公司
  • 网上做调查网站网站服务器排名
  • 微商可以做网站推广吗百度推广效果怎样一天费用
  • 西安网站建设kxccc郑州妇科医院免费咨询
  • 深圳大型网站建设公司柳州企业网站建设价格
  • 佛山专业网站设计wordpress 二维码登录
  • 网站做外链好嘛创建什么公司比较 好
  • 珠海建设集团网站首页python 网页制作教程
  • 做网站广告送报纸广告wordpress导航栏图标
  • 刚察县公司网站建设陕西省建设部网站
  • 自己弄个网站河北省中级经济师考试
  • 首次登陆建设银行网站图文解说网页历史记录在哪里
  • 做外汇最好的财经网站网商之窗挂
  • 网站建设哪里实惠福州seo快速排名软件
  • 佛山网站建设哪家评价高西安网站建设创意
  • 网站搭建软件有哪些网站建设声明函
  • 网站开发需求问卷老师让做网站怎么做
  • 专门做中式服装平台的网站岳阳网站开发报价
  • 中国公司查询网站绿色农业网站源码
  • 免费企业建站系统源码wordpress文章摘录
  • 有哪些网站可以做简历知名商城网站建设
  • 沈阳开发网站朗域装饰公司电话
  • asp做的网站asp源代码破解网站后台账号密码