当前位置：首页 > news >正文

【Python NTLK自然语言处理库】

news 2025/8/25 7:00:56

安装流程

import nltk
nltk.download()

运行后出现一个界面，然后按Download
在这里插入图片描述

Tokenize

###分词

from nltk.tokenize import word_tokenize
text = "The vendor paid $20,000,000."
tokens = word_tokenize(text)
print(tokens)

输出

['The', 'vendor', 'paid', '$', '20,000,000', '.']

###分句

import nltk
sents = "I am Angela. I am happy."
sens= nltk.sent_tokenize(sents)
print(sens)

输出

['I am Angela.', 'I am happy.']

###中文分词

from jieba import lcut
chinese_sentence = "我正在練習自然語言處理。"
chinese_tokens = lcut(chinese_sentence)
print(chinese_tokens)

输出

['我', '正在', '練習', '自然', '語言', '處理', '。']

停用词

过滤停用词

from nltk.corpus import stopwords  
from nltk.tokenize import word_tokenize  
text = "I would like to watch movie."  
tokens = word_tokenize(text) tokens
print(tokens)  
stopwords_list = set(stopwords.words('english'))  
filtered_tokens = [word for word in tokens if word.lower() not in stopwords_list]
print(filtered_tokens)

输出

['I', 'would', 'like', 'to', 'watch', 'movie', '.']
['would', 'like', 'watch', 'movie', '.']

词频

import nltk
from nltk.corpus import stopwords
sentence="I would like to buy a book. The book was bought by me."
full_stop = "."
tokens = nltk.word_tokenize(sentence.lower())
stopwords_list = set(stopwords.words('english'))
stopwords_list.add(full_stop)
filtered_tokens = [word for word in tokens if word not in stopwords_list]
print(filtered_tokens)
freq = nltk.FreqDist(filtered_tokens)
for key,val in freq.items():print (str(key) + ':' + str(val))
standard_freq=freq.most_common(3)
print(standard_freq)

输出

['would', 'like', 'buy', 'book', 'book', 'bought']
would:1
like:1
buy:1
book:2
bought:1
[('book', 2), ('would', 1), ('like', 1)]

查看全文

http://www.dtcms.com/a/348474.html

数学建模-线性规划(LP)

GPT-5国内免费体验

【Android】从一个AndroidRuntime看类的加载

Unreal Engine 下载与安装全指南：从入门到配置详解

淘宝API实战应用：数据驱动商品信息实时监控与增长策略

13种常见机器学习算法面试总结（含问题与优质回答）

【209页PPT】P2ITSP新奥IT战略规划架构设计报告（附下载方式）

Python基础之运算符

Vue3 学习教程，从入门到精通，基于 Vue3 + Element Plus + ECharts + JavaScript 开发图片素材库网站(46）

塔能科技物联精准节能如何构建智慧路灯免疫系统

【软考选择】系分和架构哪个好考？适合什么样的人？

简历书写指南

[创业之路-560]：机械、电气、自控、电子、软件、信息、通信、大数据、人工智能，上述技术演进过程

Linux shell脚本数值计算与条件执行

基于php的萌宠社区网站的设计与实现、基于php的宠物社区论坛的设计与实现

手写MyBatis第32弹-设计模式实战：Builder模式在MyBatis框架中的精妙应用

Wagtail CRX 的 Latest Pages Block 高级设置模版v3.0 以后被阉割了

基于深度学习的阿尔茨海默症MRI图像分类系统

CVPR2025丨遥感领域，全模态与秒超高清遥感建模重大突破，性能提升创新点

人工智能-python-深度学习-自动微分

MySQL數據庫開發教學(二) 核心概念、重要指令

Run-Command：高效便捷的命令行工具

46.【.NET8 实战--孢子记账--从单体到微服务--转向微服务】--扩展功能--集成网关--网关集成日志

ArticulateX：通过发音器官空间实现端到端单语语音翻译的突破

Vue vs React：前端框架的差异与选择

LabVIEW调用MATLAB 的分形生成

AMD KFD驱动分析系列0：HSA(异构系统架构)驱动概览

海盗王3.0客户端从32位升级64位之路

Redis如何高效安全的遍历所有key?

音视频学习（五十五）：H264中的profile和level

【Python NTLK自然语言处理库】

安装流程

Tokenize

停用词

标签

词频

相关文章：