当前位置: 首页 > wzjs >正文

杭州做网站五广告营销顾问

杭州做网站五,广告营销顾问,客户网站建设洽谈方案,广东平台网站建设jieba中文分词模块,详细使用教程 **✅ 1. 安装 jieba****✅ 2. 基本使用****2.1 精确模式(最常用)****2.2 全模式(会把所有可能的词都列出来)****2.3 搜索引擎模式** **✅ 3. 处理文件****✅ 4. 添加自定义词典****4.1 添加新词**…

jieba中文分词模块,详细使用教程

    • **✅ 1. 安装 jieba**
    • **✅ 2. 基本使用**
      • **2.1 精确模式(最常用)**
      • **2.2 全模式(会把所有可能的词都列出来)**
      • **2.3 搜索引擎模式**
    • **✅ 3. 处理文件**
    • **✅ 4. 添加自定义词典**
      • **4.1 添加新词**
      • **4.2 词频调整**
      • **4.3 加载自定义词典**
    • **✅ 5. 词性标注(jieba.posseg)**
    • **✅ 6. 关键词提取**
      • **6.1 TF-IDF 提取关键词**
      • **6.2 TextRank 提取关键词**
    • **🔥 总结**

jieba 是 Python 中文分词的 神器,可以用来对中文文本进行 精确分词、全模式分词、搜索引擎分词 等。


✅ 1. 安装 jieba

如果你还没安装:

pip install jieba

✅ 2. 基本使用

2.1 精确模式(最常用)

适用于文本分析、NLP任务

import jiebatext = "我爱自然语言处理"
words = jieba.lcut(text)  # 精确分词
print(words)

输出

['我', '爱', '自然语言处理']

2.2 全模式(会把所有可能的词都列出来)

适用于搜索引擎、关键词提取

jieba.lcut("我爱自然语言处理", cut_all=True)

输出

['我', '爱', '自然', '自然语言', '自然语言处理', '语言', '语言处理', '处理']

🚀 优点:可以发现所有可能的词组
⚠️ 缺点:会产生很多冗余的词,通常不用于 NLP 任务


2.3 搜索引擎模式

适用于 搜索引擎索引

jieba.lcut_for_search("小明硕士毕业于中国科学院计算技术研究所")

输出

['小明', '硕士', '毕业', '于', '中国', '中国科学院', '科学院', '计算', '计算技术', '计算技术研究所', '技术', '研究所']

🚀 特点:会把长词拆分成多个短词,方便搜索引擎检索。


✅ 3. 处理文件

如果你要对整篇文章进行分词:

with open("article.txt", "r", encoding="utf-8") as f:text = f.read()words = jieba.lcut(text)
print(" ".join(words))  # 用空格连接分词结果

适用于:

  • 处理新闻、论文、小说等文本
  • 数据预处理(如 Word2Vec)

✅ 4. 添加自定义词典

默认 jieba 可能会漏掉专业术语,需要自己添加词汇!

4.1 添加新词

jieba.add_word("深度学习")
jieba.add_word("自然语言处理")

4.2 词频调整

jieba.suggest_freq("自然语言", tune=True)

适用于 纠正错误的分词,例如 “自然语言” 被切成 “自然” 和 “语言”。

4.3 加载自定义词典

如果有大量术语(比如医学、金融、游戏术语),建议用自定义词典

jieba.load_userdict("my_dict.txt")

my_dict.txt 内容示例:

深度学习 10
机器学习 5
自然语言处理 8

格式:

  • 词语(必填)
  • 词频(可选)
  • 词性(可选)

✅ 5. 词性标注(jieba.posseg)

jieba.posseg 可以给每个词添加 词性(如名词、动词、形容词):

import jieba.posseg as psegwords = pseg.lcut("我爱自然语言处理")
for word, flag in words:print(f"{word} ({flag})")

输出

(r)(v)  自然语言处理 (n)

常见词性

  • n → 名词
  • v → 动词
  • adj → 形容词
  • r → 代词
  • m → 数量词

✅ 6. 关键词提取

6.1 TF-IDF 提取关键词

import jieba.analysetext = "人工智能是计算机科学的一个分支,它使机器能够模仿人类的智能行为。"
keywords = jieba.analyse.extract_tags(text, topK=3, withWeight=True)for word, weight in keywords:print(f"{word}: {weight}")

输出

人工智能: 0.572
计算机科学: 0.482
机器: 0.367

6.2 TextRank 提取关键词

jieba.analyse.textrank(text, topK=3, withWeight=True)

区别

  • TF-IDF 适用于短文本(新闻、微博)
  • TextRank 适用于长文本(论文、小说)

🔥 总结

功能jieba 代码
精确分词jieba.lcut(text)
全模式分词jieba.lcut(text, cut_all=True)
搜索引擎模式jieba.lcut_for_search(text)
添加自定义词jieba.add_word("自然语言处理")
词性标注pseg.lcut(text)
TF-IDF 关键词提取jieba.analyse.extract_tags(text, topK=3)
TextRank 关键词提取jieba.analyse.textrank(text, topK=3)
http://www.dtcms.com/wzjs/274639.html

相关文章:

  • 北大青鸟的网站建设课程多少钱免费永久个人域名注册
  • 寻找郑州网站建设公司百度网站提交了多久收录
  • 平板电脑网站模板东莞百度推广排名
  • 做的网站没有注册谷歌搜索引擎营销
  • 最专业的网站开发公司哪家最专业东营seo
  • 网站建设带服务器b站引流推广网站
  • 产权交易中心网站建设的原因中国最厉害的营销策划公司
  • 网站更换域名 seo聊城网站开发
  • 外贸精品网站建设关键词优化公司费用多少
  • 怎么建php网站公司网站建站要多少钱
  • 泉州网站建设测试如何发布自己的html网站
  • 天津seo方案安卓优化大师官网
  • 科技感的网站站长工具seo综合查询怎么用
  • 十里堡网站建设关键字挖掘机爱站网
  • 网站开发公司哪家最专业小程序推广平台
  • 上海做网站公司seo外链
  • 深圳模板网站制作进一步优化营商环境
  • php框架做网站的好处百度指数官网查询入口
  • 做网站用空间好还是服务器好百度网盘服务电话6988
  • 绵阳做网站的有哪些百度域名购买
  • 公众号自己做电影网站软文推广方案
  • 那些网站百度抓取率比较高营销网站建设多少钱
  • 上海 网站建设平台 补贴百度收录是什么意思
  • 部分网站dns解析失败培训心得体会怎么写
  • lol有哪些网站是做陪玩的电商seo什么意思
  • 有专门做检验的视频网站吗贵阳关键词优化平台
  • 网站建设、微信小程序、今日头条郑州头条新闻
  • 突唯阿 领先的响应式网站建设平台凡科网怎么建网站
  • 新商盟显示 检查网站开发错误呢百度seo是什么
  • 潮州网站开发多少钱怎么样优化网站seo