当前位置：首页 > news >正文

Python爬取豆瓣短评并生成词云分析

news 2025/9/23 18:42:07

一、项目概述

本项目的目标是爬取豆瓣上某部电影的短评数据，并生成词云进行情感分析。我们将使用Python编程语言，借助爬虫技术获取数据，并利用自然语言处理和数据可视化工具进行分析。具体步骤包括：

爬取豆瓣短评数据。
数据清洗和预处理。
使用词云技术生成可视化结果。
分析词云结果，提取关键信息。

二、技术栈

Python：强大的编程语言，支持多种库和框架。
Requests：用于发送HTTP请求，获取网页数据。
BeautifulSoup：用于解析HTML页面，提取所需数据。
jieba：中文分词库，用于对短评进行分词处理。
wordcloud：用于生成词云，展示高频词汇。
matplotlib：用于绘制词云图像。

三、爬取豆瓣短评

1. 环境准备

在开始之前，需要安装以下Python库：

pip install requests
pip install beautifulsoup4
pip install jieba
pip install wordcloud
pip install matplotlib

2. 爬虫实现

豆瓣的短评数据可以通过访问电影详情页的短评部分获取。以下是爬取豆瓣短评的代码实现：

import requests
from bs4 import BeautifulSoup# 代理信息
proxyHost = "www.16yun.cn"
proxyPort = "5445"
proxyUser = "16QMSOML"
proxyPass = "280651"# 构造代理服务器的认证信息
proxies = {"http": f"http://{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}","https": f"https://{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}"
}def get_douban_comments(movie_id, start=0, limit=20):"""爬取豆瓣电影短评:param movie_id: 豆瓣电影ID:param start: 起始评论位置:param limit: 每次获取的评论数量:return: 评论列表"""comments = []headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}url = f"https://movie.douban.com/subject/{movie_id}/comments?start={start}&limit={limit}"response = requests.get(url, headers=headers, proxies=proxies)  # 使用代理if response.status_code == 200:soup = BeautifulSoup(response.text, 'html.parser')comment_items = soup.find_all('div', class_='comment')for item in comment_items:comment = item.find('p', class_='comment-content').get_text().strip()comments.append(comment)return comments# 示例：爬取电影《肖申克的救赎》的短评
movie_id = '1292052'  # 豆瓣电影ID
all_comments = []
for i in range(0, 100, 20):  # 获取前100条评论comments = get_douban_comments(movie_id, start=i)all_comments.extend(comments)print(f'共获取到 {len(all_comments)} 条短评')

3. 数据清洗

爬取到的短评数据可能包含HTML标签、特殊字符或无关信息，需要进行清洗和预处理。以下是数据清洗的代码：

import redef clean_comments(comments):"""清洗短评数据:param comments: 评论列表:return: 清洗后的评论列表"""cleaned_comments = []for comment in comments:# 去除HTML标签和特殊字符cleaned_comment = re.sub(r'<.*?>', '', comment)cleaned_comment = re.sub(r'[^\u4e00-\u9fa5a-zA-Z0-9]', ' ', cleaned_comment)cleaned_comments.append(cleaned_comment)return cleaned_commentscleaned_comments = clean_comments(all_comments)
print(cleaned_comments[:5])  # 查看清洗后的前5条评论

四、生成词云

词云是一种常见的文本可视化方式，通过将高频词汇以更大的字体显示，直观地展示文本内容的重点。以下是生成词云的代码实现：

import jieba
from wordcloud import WordCloud
import matplotlib.pyplot as pltdef generate_wordcloud(comments):"""生成词云:param comments: 评论列表"""# 合并所有评论为一个长文本text = ' '.join(comments)# 使用jieba进行中文分词words = jieba.cut(text)word_text = ' '.join(words)# 创建WordCloud对象wordcloud = WordCloud(font_path='path/to/simhei.ttf',  # 指定中文字体路径width=800,height=600,background_color='white',  # 设置词云背景颜色max_words=100,  # 设置最多显示的单词数min_font_size=10,  # 设置最小字体大小max_font_size=100,  # 设置最大字体大小).generate(word_text)# 使用matplotlib绘制词云plt.figure(figsize=(10, 8))plt.imshow(wordcloud, interpolation='bilinear')plt.axis('off')  # 关闭坐标轴plt.show()generate_wordcloud(cleaned_comments)