当前位置：首页 > wzjs >正文

辽宁省城乡和住房建设厅网站济南网站seo

wzjs 2025/7/22 10:51:55

辽宁省城乡和住房建设厅网站,济南网站seo,在库言库建筑网站,wordpress菜单图标插件上一篇文章，我们爬取了苏宁易购平台某产品的优质评价和差评，今天我们对优质评价与差评进行分析 selenium爬取苏宁易购平台某产品的评论-CSDN博客目录 1. 数据加载 2. 中文分词 3. 停用词处理 4. 数据标注与合并 5. 数据集划分 6. 文本特征提取 …

上一篇文章，我们爬取了苏宁易购平台某产品的优质评价和差评，今天我们对优质评价与差评进行分析

selenium爬取苏宁易购平台某产品的评论-CSDN博客

目录

1. 数据加载

2. 中文分词

3. 停用词处理

4. 数据标注与合并

5. 数据集划分

6. 文本特征提取

7. 模型训练与评估

MultinomialNB（多项式朴素贝叶斯）

ComplementNB（补充朴素贝叶斯）

BernoulliNB（伯努利朴素贝叶斯）

完整代码

运行结果

结果如何解读：

1. 数据加载

c_content = pd.read_table(r'.\差评(1).txt', encoding='gbk')
h_content = pd.read_table(r'.\优质评价.txt', encoding='gbk')

功能：从本地读取两个文本文件，分别是差评数据 (差评(1).txt) 和优质评价数据 (优质评价.txt)，并使用 gbk 编码加载为 Pandas DataFrame。
说明：pd.read_table 用于读取以制表符分隔的文本文件。

2. 中文分词

import jieba
c_segments = []
contents = c_content.content.values.tolist()
for content in contents:results = jieba.lcut(content)if len(results) > 1:c_segments.append(results)

功能：对差评数据进行中文分词，使用 jieba.lcut 将每一条评论分割成词语列表。
说明：
- jieba.lcut 是结巴分词库的函数，用于将中文句子切分为词语列表。
- if len(results) > 1 过滤掉分词结果中长度小于等于 1 的无效数据。

c_f_results = pd.DataFrame({'content': c_segments})
c_f_results.to_excel('c_f_results.xlsx', index=False)

功能：将分词后的差评数据保存到 Excel 文件 (c_f_results.xlsx) 中。
说明：pd.DataFrame 将分词结果转换为 DataFrame，to_excel 用于保存为 Excel 文件。

h_segments = []
contents = h_content.content.values.tolist()
for content in contents:results = jieba.lcut(content)if len(results) > 1:h_segments.append(results)

h_f_results = pd.DataFrame({'content': h_segments})
h_f_results.to_excel('h_f_results.xlsx', index=False)

功能：对优质评价数据进行中文分词，并保存到 Excel 文件 (h_f_results.xlsx) 中。
说明：与差评数据处理流程相同。

3. 停用词处理

stopwords = pd.read_csv(r'..\TF_IDF\StopwordsCN.txt', encoding='utf8', engine='python', index_col=False)

功能：加载中文停用词表 (StopwordsCN.txt)，用于过滤分词结果中的无意义词语。
说明：停用词表是一个包含常见无意义词语（如“的”、“是”等）的文件。

def drop_stopwords(contents, stopwords):segments_clean = []for content in contents:line_clean = []for word in content:if word in stopwords:continueline_clean.append(word)segments_clean.append(line_clean)return segments_clean

功能：定义一个函数 drop_stopwords，用于从分词结果中移除停用词。
说明：
- 遍历每条分词结果，过滤掉停用词表中的词语。
- 返回清理后的分词结果。

contents = c_f_results.content.values.tolist()
stopwords = stopwords.stopword.values.tolist()
c_f_contents_clean_s = drop_stopwords(contents, stopwords)

功能：对差评分词结果进行停用词过滤。
说明：调用 drop_stopwords 函数，清理差评数据中的停用词。

contents = h_f_results.content.values.tolist()
h_f_contents_clean_s = drop_stopwords(contents, stopwords)

功能：对优质评价分词结果进行停用词过滤。
说明：与差评数据处理流程相同。

4. 数据标注与合并

c_train = pd.DataFrame({'segments_clean': c_f_contents_clean_s, 'label': 1})
h_train = pd.DataFrame({'segments_clean': h_f_contents_clean_s, 'label': 0})
pj_train = pd.concat([c_train, h_train])
pj_train.to_excel('pj_train.xlsx', index=False)

功能：将差评和优质评价数据合并，并为每条数据打上标签（差评为 1，优质评价为 0）。
说明：

label: 1 表示差评，label: 0 表示优质评价。

5. 数据集划分

from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(pj_train['segments_clean'].values,pj_train['label'].values, test_size=0.2, random_state=48)

功能：将数据集划分为训练集和测试集，测试集占 20%，训练集占 80%。
说明：
- x_train 和 x_test 是分词后的文本数据。
- y_train 和 y_test 是对应的标签数据。
- random_state=48 确保每次划分的结果一致。

words = []
for line_index in range(len(x_train)):words.append(' '.join(x_train[line_index]))

功能：将训练集的文本数据转换为以空格分隔的字符串列表。
说明：

' '.join(x_train[line_index]) 将分词列表拼接为一个字符串。


words2 = []
for line_index in range(len(x_test)):words2.append(' '.join(x_test[line_index]))

功能：将测试集的文本数据转换为以空格分隔的字符串列表。
说明：与训练集处理方式相同。

6. 文本特征提取

from sklearn.feature_extraction.text import CountVectorizer
vec = CountVectorizer(max_features=4000, lowercase=False, ngram_range=(1, 3))
vec.fit(words)
vec.fit(words2)

功能：使用 CountVectorizer 将文本数据转换为特征向量。
说明：
- max_features=4000 限制特征向量的最大维度为 4000。
- lowercase=False 不将文本转换为小写（适用于中文）。
- ngram_range=(1, 3) 提取 1 元、2 元和 3 元语法特征。

7. 模型训练与评估

这里提供了三种贝叶斯模型供大家参考，在下面完整的代码中我将选择多项式朴素贝叶斯模型训练

MultinomialNB（多项式朴素贝叶斯）

from sklearn.naive_bayes import MultinomialNB
classifier = MultinomialNB(alpha=0.1)
classifier.fit(vec.transform(words), y_train)
train_pr = classifier.predict(vec.transform(words))
test_pr = classifier.predict(vec.transform(words2))

from sklearn import metrics
print(metrics.classification_report(y_train, train_pr))
print(metrics.classification_report(y_test, test_pr))

功能：使用多项式朴素贝叶斯模型进行训练和预测，并输出分类报告。
说明：
- alpha=0.1 是平滑参数，用于防止概率为零的情况。
- metrics.classification_report 输出模型的精确率、召回率和 F1 分数。

ComplementNB（补充朴素贝叶斯）

from sklearn.naive_bayes import ComplementNB
classifier = ComplementNB(alpha=0.1)
classifier.fit(vec.transform(words), y_train)
train_pr = classifier.predict(vec.transform(words))
test_pr = classifier.predict(vec.transform(words2))

from sklearn import metrics
print(metrics.classification_report(y_train, train_pr))
print(metrics.classification_report(y_test, test_pr))

功能：使用补充朴素贝叶斯模型进行训练和预测，并输出分类报告。
说明：补充朴素贝叶斯适用于不平衡数据集。

BernoulliNB（伯努利朴素贝叶斯）

from sklearn.naive_bayes import BernoulliNB
classifier = BernoulliNB(alpha=0.1)
classifier.fit(vec.transform(words), y_train)
train_pr = classifier.predict(vec.transform(words))
test_pr = classifier.predict(vec.transform(words2))

from sklearn import metrics
print(metrics.classification_report(y_train, train_pr))
print(metrics.classification_report(y_test, test_pr))

功能：使用伯努利朴素贝叶斯模型进行训练和预测，并输出分类报告。
说明：伯努利朴素贝叶斯适用于二值特征数据。

完整代码

import pandas as pd

c_content=pd.read_table(r'.\差评(1).txt',encoding='gbk')
h_content=pd.read_table(r'.\优质评价.txt',encoding='gbk')

import jieba
c_segments=[]
contents=c_content.content.values.tolist()
for content in contents:results=jieba.lcut(content)if len(results)>1:c_segments.append(results)

c_f_results=pd.DataFrame({'content':c_segments})
c_f_results.to_excel('c_f_results.xlsx',index=False)

h_segments=[]
contents=h_content.content.values.tolist()
for content in contents:results=jieba.lcut(content)if len(results)>1:h_segments.append(results)

h_f_results=pd.DataFrame({'content':h_segments})
h_f_results.to_excel('h_f_results.xlsx',index=False)

stopwords=pd.read_csv(r'..\TF_IDF\StopwordsCN.txt',encoding='utf8',engine='python',index_col=False)
def drop_stopwords(contents,stopwords):segments_clean=[]for content in contents:line_clean=[]for word in content:if word in stopwords:continueline_clean.append(word)segments_clean.append(line_clean)return segments_clean
contents=c_f_results.content.values.tolist()
stopwords=stopwords.stopword.values.tolist()
c_f_contents_clean_s=drop_stopwords(contents,stopwords)

contents=h_f_results.content.values.tolist()
# stopwords=stopwords.stopword.values.tolist()
h_f_contents_clean_s=drop_stopwords(contents,stopwords)

c_train=pd.DataFrame({'segments_clean':c_f_contents_clean_s,'label':1})
h_train=pd.DataFrame({'segments_clean':h_f_contents_clean_s,'label':0})
pj_train=pd.concat([c_train,h_train])
pj_train.to_excel('pj_train.xlsx',index=False)

from sklearn.model_selection import train_test_split

x_train,x_test,y_train,y_test=train_test_split(pj_train['segments_clean'].values,pj_train['label'].values,test_size=0.2,random_state=48)
words=[]
for line_index in range(len(x_train)):words.append(' '.join(x_train[line_index]))
# print(words)

words2=[]
for line_index in range(len(x_test)):words2.append(' '.join(x_test[line_index]))

from sklearn.feature_extraction.text import CountVectorizer
vec=CountVectorizer(max_features=4000,lowercase=False,ngram_range=(1,3))
vec.fit(words)
vec.fit(words2)

print('MultinomialNB')
from sklearn.naive_bayes import MultinomialNB
classifier=MultinomialNB(alpha=0.1)
classifier.fit(vec.transform(words),y_train)
train_pr=classifier.predict(vec.transform(words))
test_pr=classifier.predict(vec.transform(words2))

from sklearn import  metrics
print(metrics.classification_report(y_train,train_pr))
print(metrics.classification_report(y_test,test_pr))

运行结果

结果如何解读：

在代码中，每个模型训练后都会输出一个分类报告，使用 metrics.classification_report 生成。分类报告包括以下指标：

精确率 (Precision)：预测为正类的样本中，实际为正类的比例。
召回率 (Recall)：实际为正类的样本中，预测为正类的比例。
F1 分数 (F1-Score)：精确率和召回率的加权平均值，综合衡量模型的性能。
支持数 (Support)：每个类别的样本数量。

在我们的运行结果中

类别 0：表示好评的指标。
类别 1：表示差评的指标。
accuracy：模型整体的准确率。
macro avg：各类别指标的平均值。
weighted avg：按样本数量加权的各类别指标平均值。

http://www.dtcms.com/wzjs/48736.html

相关文章：

网站建设销售找客源种子搜索

网站关键词怎么做营销推广网站推广方案

帮别人做网站赚钱6seo优化网站词

王爷你好坏滕州seo

手机网站开发html南宁百度关键词排名公司

wordpress事件提醒seo在线优化排名

帮境外赌场做网站是否有风险百度收录推广

企业社会责任和企业建设佳木斯seo

厦门自主建站模板东莞百度快照优化排名

广州好蜘蛛网站建设公司软文500字范文

旅游景点网站建设毕业设计说明扬中网站制作

门户网站的建设方案哪里有学市场营销培训班

公司网站制作定制百度人工智能

完善系部网站建设的好处产品软文代写

手机网站开发周期培训心得

深圳做营销网站南宁seo关键词排名

wordpress怎么做站群百度推广怎么优化

网站定制哪家安全上海网站seo公司

房地产东莞网站建设网络营销模式下品牌推广研究

哈尔滨建设部网站站长seo综合查询工具

怎么给网站引流高端企业建站公司

专业制作网站建设建立一个企业网站需要多少钱

礼品网站建设公司网络营销心得体会800字

做网站应该选择怎样的公司seo博客大全

微信制作网站百度seo关键词外包

做团购的家居网站有哪些新手20种引流推广方法

ai论文生成器免费广东网站seo策划

整套html企业网站模板百度竞价推广屏蔽软件

如何利用网站做淘宝客网站推广常用方法

怀化高速网站百度关键词挖掘工具爱站网