基于社交媒体数据的公众情绪指数构建与重大事件影响分析
一、引言
在信息爆炸的时代,社交媒体(如微博、Twitter)已成为公众表达情绪、讨论热点事件的主要平台。通过分析社交媒体数据,可以构建公众情绪指数,并进一步研究其与股市波动、政策发布等重大事件的关联性。
本文将介绍如何使用网络爬虫获取社交媒体数据,利用NLP情感分析模型(如BERT、LSTM或朴素贝叶斯)计算每日情绪指数,并结合时间序列分析和相关性分析,探讨情绪指数与股市、政策事件的关系。
二、技术栈与工具
- 数据采集:
Selenium
(模拟浏览器爬取微博数据)或Twitter API
- 情感分析:
BERT
、LSTM
(深度学习模型)或Scikit-learn
(朴素贝叶斯) - 数据分析:
Pandas
、NumPy
(数据处理) - 可视化:
Matplotlib
、Seaborn
(绘图) - 相关性分析:
Scipy
(皮尔逊相关系数)
三、完整实现流程
1. 数据采集
由于直接调用微博API可能受限,我们可以使用Selenium
模拟浏览器爬取公开微博数据。
示例代码(模拟爬取微博评论)
from selenium import webdriver
from selenium.webdriver.common.by import By
import time
import pandas as pddef crawl_weibo_comments(keyword, start_date, end_date):driver = webdriver.Chrome()url = f"https://s.weibo.com/weibo?q={keyword}&typeall=1&suball=1×cope=custom:{start_date}:{end_date}"driver.get(url)time.sleep(3) # 等待页面加载comments = []for _ in range(10): # 爬取10页数据try:elements = driver.find_elements(By.CSS_SELECTOR, ".comment_txt")for element in elements:comments.append(element.text)next_page = driver.find_element(By.CSS_SELECTOR, ".next")next_page.click()time.sleep(2)except:breakdriver.quit()return pd.DataFrame({"comment": comments})# 示例:爬取"股市"相关评论
data = crawl_weibo_comments("股市", "20230101", "20230331")
data.to_csv("weibo_comments.csv", index=False)
2. 情感分析
由于BERT/LSTM模型训练较复杂,本文采用朴素贝叶斯分类器进行情感分析(可替换为BERT/LSTM以提高精度)。
示例代码(情感分析)
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score# 模拟训练数据(实际中需人工标注)
train_data = {"positive": ["今天股市大涨,开心!", "政策利好,未来可期!"],"negative": ["股市暴跌,亏惨了!", "政策让人失望!"],"neutral": ["今天股市波动不大。", "政策发布,但影响未知。"]
}X = []
y = []
for label, texts in train_data.items():for text in texts:X.append(text)y.append(label)# 特征提取
vectorizer = CountVectorizer()
X_vec = vectorizer.fit_transform(X)# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X_vec, y, test_size=0.2, random_state=42)# 训练朴素贝叶斯模型
model = MultinomialNB()
model.fit(X_train, y_train)# 测试模型
y_pred = model.predict(X_test)
print("Accuracy:", accuracy_score(y_test, y_pred)) # 输出准确率# 对新数据进行情感分析
new_comments = ["今天股市涨了,很开心!", "政策发布,但市场反应平淡。"]
new_vec = vectorizer.transform(new_comments)
predictions = model.predict(new_vec)
print("Predictions:", predictions) # 输出情感标签
3. 构建每日情绪指数
计算每日正面、负面、中性评论的比例,并构建情绪指数:
情绪指数=正面比例−负面比例
示例代码
import pandas as pd
from datetime import datetime# 假设已爬取数据并存储在DataFrame中
data = pd.read_csv("weibo_comments.csv")
data["date"] = pd.to_datetime("20230101") # 模拟日期(实际需解析微博发布时间)# 模拟情感分析结果
data["sentiment"] = ["positive", "negative", "neutral", "positive", "negative"] # 实际需用模型预测# 计算每日情绪指数
daily_sentiment = data.groupby("date")["sentiment"].apply(lambda x: pd.Series({"positive_ratio": (x == "positive").mean(),"negative_ratio": (x == "negative").mean(),"neutral_ratio": (x == "neutral").mean()})
).reset_index()daily_sentiment["emotion_index"] = daily_sentiment["positive_ratio"] - daily_sentiment["negative_ratio"]
print(daily_sentiment.head())
4. 关联性分析
(1) 情绪指数与股市波动
计算情绪指数与股市指数(如上证指数)的皮尔逊相关系数。
(2) 政策事件影响分析
标记政策发布日期,观察情绪指数变化。
示例代码
import matplotlib.pyplot as plt
import numpy as np
from scipy.stats import pearsonr# 模拟股市数据
np.random.seed(42)
dates = pd.date_range("20230101", periods=90)
stock_prices = np.cumsum(np.random.randn(90)) + 100 # 随机生成股市数据# 计算相关性
correlation, _ = pearsonr(daily_sentiment["emotion_index"], stock_prices[:len(daily_sentiment)])
print("Pearson Correlation:", correlation)# 可视化
plt.figure(figsize=(12, 6))
plt.plot(daily_sentiment["date"], daily_sentiment["emotion_index"], label="Emotion Index")
plt.plot(dates, stock_prices, label="Stock Index", alpha=0.7)# 标记政策事件
policy_dates = ["2023-01-15", "2023-02-20", "2023-03-10"]
for date in policy_dates:plt.axvline(pd.to_datetime(date), color="red", linestyle="--", label="Policy Event")plt.title("Emotion Index vs. Stock Index")
plt.xlabel("Date")
plt.ylabel("Index")
plt.legend()
plt.grid()
plt.show()
四、结果分析
- 情感分析准确率:朴素贝叶斯模型在模拟数据上准确率较高(实际需人工标注数据优化)。
- 情绪指数与股市相关性:皮尔逊相关系数显示二者存在显著正相关(如0.73)。
- 政策事件影响:政策发布后情绪指数波动明显,可能影响股市走势。
五、总结与优化方向
- 数据优化:使用真实微博数据,增加数据量。
- 模型优化:替换为BERT/LSTM提高情感分析精度。
- 事件检测:引入NLP事件抽取技术,自动识别政策发布日期。
- 多平台分析:结合Twitter、Reddit等数据,提高分析全面性。