当前位置: 首页 > news >正文

机器学习——朴素贝叶斯练习题

一、

使用鸢尾花数据训练多项式朴素贝叶斯模型,并评估模型

代码展示: 

from sklearn.datasets import load_iris
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNBiris = load_iris()x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target,test_size=0.3,random_state=42)model = MultinomialNB()model.fit(x_train,y_train)y_pred = model.predict(x_test)
print("预测率:",accuracy_score(y_test,y_pred))

 结果展示:

预测率: 0.9555555555555556

二、

电影评论情感分析

‌项目背景‌:

你在一家电影评论网站工作,需要开发一个情感分析系统来自动分类用户评论是正面还是负面。使用Kaggle上的"IMDB Dataset of 50K Movie Reviews"数据集。

‌数据集链接‌:

IMDB Dataset of 50K Movie Reviews | Kaggle

‌练习题要求‌:

  1. 使用Pandas加载并预处理数据
  2. 使用Numpy进行特征工程
  3. 比较不同朴素贝叶斯变体(高斯、多项式、伯努利)的性能
  4. 使用matplotlib绘制性能比较图表

代码展示:

import re
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB, MultinomialNB, BernoulliNB
import matplotlib.pyplot as pltdf = pd.read_csv("./data/IMDB Dataset.csv",encoding="utf-8")
print(df.head())
print(df.shape)df["sentiment"] = df["sentiment"].map({"positive":1,"negative":0})
# print(df.head())comment = df["review"]
# print(comment.head())comment_lists = []
for i in comment:# print(i)i = i.lower()i = re.sub(r'<.*?>', '', i)i = re.sub(r'[^a-zA-Z]', ' ', i)words = i.split()words = [word for word in words if len(word) > 2]comment_list = " ".join(words)comment_lists.append(comment_list)# print(comment_list)
df["clean_review"] = comment_liststransfer = TfidfVectorizer(max_features=5000,ngram_range=(1,2))
x = transfer.fit_transform(df["clean_review"])
y = df["sentiment"]x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.3,random_state=42)mu_model = MultinomialNB()
mu_model.fit(x_train,y_train)mu_y_pred = mu_model.predict(x_test)
mu_accuracy = accuracy_score(y_test,mu_y_pred)
print("多项式朴素贝叶斯:",mu_accuracy)be_model = BernoulliNB()
be_model.fit(x_train,y_train)be_y_pred = be_model.predict(x_test)
be_accuracy = accuracy_score(y_test,be_y_pred)
print("伯努利朴素贝叶斯:",be_accuracy)transfer = CountVectorizer(max_features=5000)
x = transfer.fit_transform(comment_lists)x_dense = x.toarray()x_train = x_dense[:4000, :]
good_or_bad = df["sentiment"].values
y_train = good_or_bad[:4000]
x_test = x_dense[4000:, :]
y_test = good_or_bad[4000:]ga_model = GaussianNB()
ga_model.fit(x_train,y_train)
ga_y_pred = ga_model.predict(x_test)
ga_accuracy = accuracy_score(y_test,ga_y_pred)
print("高斯朴素贝叶斯:",ga_accuracy)models = ['GaussianNB','MultinomialNB','BernoulliNB']
values = [ga_accuracy,mu_accuracy,be_accuracy]plt.bar(models,values,color=['blue','green','red']
)plt.title("Comparison of Naive Bayes Variants")
plt.ylabel("Accuracy")
plt.tight_layout()
plt.show()

结果展示:

多项式朴素贝叶斯: 0.8628666666666667
伯努利朴素贝叶斯: 0.8533333333333334
高斯朴素贝叶斯: 0.7214347826086956

 

 

 

 

http://www.dtcms.com/a/191765.html

相关文章:

  • 实用工具:微软软件PowerToys(完全免费),实现多台电脑共享鼠标和键盘(支持window系统)
  • 机器学习 day03
  • ARP Detection MAC-Address Static
  • 机器学习08-损失函数
  • 论文学习_Precise and Accurate Patch Presence Test for Binaries
  • CodeEdit:macOS上一款可以让Xcode退休的IDE
  • RabbitMQ最新入门教程
  • 考研408《计算机组成原理》复习笔记,第二章(2)数值数据的表示和运算(浮点数篇)
  • AI智能分析网关V4工服检测算法:工厂车间着装规范管理的智能化解决方案
  • 趣味编程:钟表
  • [250515] 腾讯推出 AI 编程助手 CodeBuddy,对标 Cursor
  • ArcGIS Pro地块图斑顺序编号(手绘线顺序快速编号)-004
  • 网络安全-等级保护(等保) 2-4 GB/T 22239-2019 《信息安全技术 网络安全等级保护基础要求》-2019-05-10发布【现行】
  • WooCommerce短代码Shortcodes使用方法
  • 青少年编程与数学 02-019 Rust 编程基础 13课题、智能指针
  • RPC与SOAP的区别
  • Protobuf3协议关键字详解与应用实例
  • Ubuntu20.04下如何源码编译Carla,使用UE4源码开跑,踩坑集合
  • 前端ECS简介
  • 团队项目培训
  • 【网络编程】九、详解 HTTPS 加密原理
  • 面试题:请解释Java中的垃圾回收机制(Garbage Collection, GC),并讨论不同的垃圾回收算法及其优缺点
  • MCP本地高效与云端实时:stdio 与 HTTP+SSE 传输机制深度对比
  • 前端npm的核心作用与使用详解
  • BLEEDR区别
  • html的鼠标点击事件有哪些写法
  • ARM A64 LDR指令
  • 召回11:地理位置召回、作者召回、缓存召回
  • 【人工智能-agent】--Dify+Mysql+Echarts搭建了一个能“听懂”人话的数据可视化助手!
  • 【Linux系统】从 C 语言文件操作到系统调用的核心原理