当前位置: 首页 > news >正文

【Python NTLK自然语言处理库】

安装流程

import nltk
nltk.download()

运行后出现一个界面,然后按Download
在这里插入图片描述

Tokenize

###分词

from nltk.tokenize import word_tokenize
text = "The vendor paid $20,000,000."
tokens = word_tokenize(text)
print(tokens)

输出

['The', 'vendor', 'paid', '$', '20,000,000', '.']

###分句

import nltk
sents = "I am Angela. I am happy."
sens= nltk.sent_tokenize(sents)
print(sens)

输出

['I am Angela.', 'I am happy.']

###中文分词

from jieba import lcut
chinese_sentence = "我正在練習自然語言處理。"
chinese_tokens = lcut(chinese_sentence)
print(chinese_tokens)

输出

['我', '正在', '練習', '自然', '語言', '處理', '。']

停用词

过滤停用词

from nltk.corpus import stopwords  
from nltk.tokenize import word_tokenize  
text = "I would like to watch movie."  
tokens = word_tokenize(text) tokens
print(tokens)  
stopwords_list = set(stopwords.words('english'))  
filtered_tokens = [word for word in tokens if word.lower() not in stopwords_list]
print(filtered_tokens)  

输出

['I', 'would', 'like', 'to', 'watch', 'movie', '.']
['would', 'like', 'watch', 'movie', '.']

标签

import nltk
sentence = "I am happy."
tokens = nltk.word_tokenize(sentence)
pos_tags = nltk.pos_tag(tokens)
print(pos_tags)

输出

[('I', 'PRP'), ('am', 'VBP'), ('happy', 'JJ'), ('.', '.')]

词频

import nltk
from nltk.corpus import stopwords
sentence="I would like to buy a book. The book was bought by me."
full_stop = "."
tokens = nltk.word_tokenize(sentence.lower())
stopwords_list = set(stopwords.words('english'))
stopwords_list.add(full_stop)
filtered_tokens = [word for word in tokens if word not in stopwords_list]
print(filtered_tokens)
freq = nltk.FreqDist(filtered_tokens)
for key,val in freq.items():print (str(key) + ':' + str(val))
standard_freq=freq.most_common(3)
print(standard_freq)

输出

['would', 'like', 'buy', 'book', 'book', 'bought']
would:1
like:1
buy:1
book:2
bought:1
[('book', 2), ('would', 1), ('like', 1)]
http://www.dtcms.com/a/348474.html

相关文章:

  • 数学建模-线性规划(LP)
  • GPT-5国内免费体验
  • 【Android】从一个AndroidRuntime看类的加载
  • Unreal Engine 下载与安装全指南:从入门到配置详解
  • 淘宝API实战应用:数据驱动商品信息实时监控与增长策略
  • 13种常见机器学习算法面试总结(含问题与优质回答)
  • 【209页PPT】P2ITSP新奥IT战略规划架构设计报告(附下载方式)
  • Python基础之运算符
  • Vue3 学习教程,从入门到精通,基于 Vue3 + Element Plus + ECharts + JavaScript 开发图片素材库网站(46)
  • 塔能科技物联精准节能如何构建智慧路灯免疫系统
  • 【软考选择】系分和架构哪个好考?适合什么样的人?
  • 简历书写指南
  • [创业之路-560]:机械、电气、自控、电子、软件、信息、通信、大数据、人工智能,上述技术演进过程
  • Linux shell脚本数值计算与条件执行
  • 基于php的萌宠社区网站的设计与实现、基于php的宠物社区论坛的设计与实现
  • 手写MyBatis第32弹-设计模式实战:Builder模式在MyBatis框架中的精妙应用
  • Wagtail CRX 的 Latest Pages Block 高级设置 模版v3.0 以后被阉割了
  • 基于深度学习的阿尔茨海默症MRI图像分类系统
  • CVPR2025丨遥感领域,全模态与秒超高清遥感建模重大突破,性能提升创新点
  • 人工智能-python-深度学习-自动微分
  • MySQL數據庫開發教學(二) 核心概念、重要指令
  • Run-Command:高效便捷的命令行工具
  • 46.【.NET8 实战--孢子记账--从单体到微服务--转向微服务】--扩展功能--集成网关--网关集成日志
  • ArticulateX:通过发音器官空间实现端到端单语语音翻译的突破
  • Vue vs React:前端框架的差异与选择
  • LabVIEW调用MATLAB 的分形生成
  • AMD KFD驱动分析系列0:HSA(异构系统架构)驱动概览
  • 海盗王3.0客户端从32位升级64位之路
  • Redis如何高效安全的遍历所有key?
  • 音视频学习(五十五):H264中的profile和level