当前位置：首页 > news >正文

自然语言处理NLP入门 -- 第九节NLP 实战项目 1：情感分析系统

news 2025/11/7 16:55:14

什么是情感分析？为什么要做情感分析？

在互联网时代，人们每天会在社交媒体、论坛、产品评价等平台上发表海量的评论和观点。这些文本数据蕴含了大量价值，其中一个重要的方向就是“情感分析（Sentiment Analysis）”。情感分析旨在判断文本背后所表达的主观情绪，如“正面”、“中性”或者“负面”，或者更细致地判断不同情绪强度，如“非常满意”、“满意”、“一般”、“不满”、“愤怒”等。

现实应用场景包括：

产品评论分析：了解用户对产品或服务的态度，帮助企业改进产品或策略。
舆情监控：监测社交媒体、新闻的评论风向，及时预警危机。
市场调研：更快速且低成本地了解市场反馈，比传统问卷调查更加自动化。

这一系列场景说明，情感分析在商业和社会层面都具有非常高的价值。接下来，就让我们动手实现一个简单的情感分析系统，让你更加直观地理解和掌握这一技术。

第一步：准备环境和数据

1. 创建Python开发环境

建议使用 Anaconda 或者 Miniconda 搭建Python环境。
安装常用数据科学库：numpy、pandas、scikit-learn、matplotlib（用于可视化）等。
如果要调用OpenAI API，需要安装 openai 库并在 OpenAI官网注册账号、获取API Key。

pip install numpy pandas scikit-learn matplotlib openai

2. 获取文本数据

情感分析的核心是数据——我们需要拥有带有情感标签的语料，也就是每条文本都注明了它属于“正面”、“负面”或其他类别。

如果你想快速入门，可以使用 IMDb电影评论数据集或 Kaggle上的情感分析数据集。这些数据集都是常用的英文评论语料，带有正面/负面标签。

第二步：数据预处理

1. 加载与探索数据

假设我们使用一个示例数据集 reviews.csv，其中包含两列：

review：用户对电影的评论文本
sentiment：情感标签（“positive” 或者 “negative”）

Python示例代码：

import pandas as pd

# 读取数据集
df = pd.read_csv("reviews.csv")
print(df.head())

# 查看数据基本信息
print(df.info())
print(df['sentiment'].value_counts())

示例输出：

                                              review sentiment
0  I loved this movie. The story was engaging and...  positive
1  Terrible film. Boring storyline and poor perfo...  negative
2  Absolutely delightful! The visuals and music w...  positive
3  I was disappointed. The plot didn't make any s...  negative
4  An amazing experience from start to finish. Hi...  positive
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   review     8 non-null      object
 1   sentiment  8 non-null      object
dtypes: object(2)
memory usage: 260.0+ bytes
None
sentiment
positive    4
negative    4
Name: count, dtype: int64

在实际项目中，你可能还需要对数据进行初步的可视化，比如，查看正负面评论的分布是否平衡。如果数据极不平衡（比如正面评论远远多于负面评论），在后续模型训练中就需要进行相应调整或数据增补。

2. 文本清洗与分词

去除HTML标签、特殊字符：有些评论可能包含HTML标签或者无关字符。
分词：将文本拆分成一个个单词或词语；英文常用空格分割，对于中文等，需要用专门的分词工具。
去除停用词：诸如“the”、“is”、“are”或“的”、“了”、“在”这类常见却没太多实际意义的词汇，可以根据实际需要选择去除。

示例代码（英文情感分析）：

import re
import nltk
from nltk.corpus import stopwords

# nltk 的停用词词表
nltk.download('stopwords')
stop_words = set(stopwords.words('english'))

def preprocess_text(text):
    # 去除HTML标签
    text = re.sub(r'<.*?>', '', text)
    # 去除非字母字符
    text = re.sub(r'[^a-zA-Z]', ' ', text)
    # 全部转为小写
    text = text.lower()
    # 分词
    words = text.split()
    # 去除停用词
    words = [w for w in words if w not in stop_words]
    # 拼回字符串
    return ' '.join(words)

df['cleaned_review'] = df['review'].apply(preprocess_text)

新概念解释：

re.sub(pattern, repl, string)：使用正则表达式来替换字符串中符合 pattern 的部分为 repl。
nltk.corpus.stopwords：nltk 内置的英语停用词库。

第三步：训练自己的模型

1. 数据向量化（特征工程）

为了让机器学习模型理解文本，我们需要将文字转换为数字特征。最常见的简单方法是使用CountVectorizer或TF-IDF向量化。

from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(df['cleaned_review'])  # 文本转换为稀疏矩阵
y = df['sentiment']  # 目标标签

新概念解释：

CountVectorizer：将文本中的每个单词计数并转换为向量。例如，如果一篇文本包含“great movie”，那么“great”和“movie”在特征向量中的值会对应增加。
fit_transform：先学习文本中的单词特点（fit），再将文本转换为特征向量（transform）。

2. 模型选择与训练

机器学习中，常见的文本分类模型包括朴素贝叶斯（Naive Bayes）、逻辑回归（Logistic Regression）、支持向量机（SVM）等。这里我们先尝试最简单的朴素贝叶斯分类器。

from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练模型
model = MultinomialNB()
model.fit(X_train, y_train)

# 测试预测
y_pred = model.predict(X_test)

# 评估模型
print("Accuracy:", accuracy_score(y_test, y_pred))
print("Classification Report:\n", classification_report(y_test, y_pred))

示例输出：

Accuracy: 1.0
Classification Report:
               precision    recall  f1-score   support

    negative       1.00      1.00      1.00         2

    accuracy                           1.00         2
   macro avg       1.00      1.00      1.00         2
weighted avg       1.00      1.00      1.00         2

通过accuracy_score和classification_report，我们可以了解模型在测试集上的准确率以及每个情感标签的精确率（precision）、召回率（recall）和F1分数。如果准确率不高，说明数据预处理或模型选择需要改进。

可能的改进方向：

使用TF-IDF替代 CountVectorizer，尝试TfidfVectorizer。
试用Logistic Regression、RandomForest等其他分类器，看哪个效果更好。
针对文本进一步清洗，或进行词形还原（Lemmatization）。

第四步：使用 OpenAI API 进行情感分析

如果你希望快速获得较高准确度，而且不想自己维护复杂的模型，可以借助OpenAI API来完成情感分析。以下是一个简要的示例：

import openai

# 设置你的OpenAI API Key
openai.api_key = "YOUR_API_KEY"

def sentiment_analysis_openai(text):
    prompt = f"请判断以下文本的情感是正面还是负面：\n{text}\n结论："
    response = openai.Completion.create(
        engine="text-davinci-003",  # 或者你可使用更适合的模型名称
        prompt=prompt,
        max_tokens=50,
        temperature=0.3,
        top_p=1
    )
    return response.choices[0].text.strip()

# 测试
test_text = "I really love this movie! It was fantastic."
result = sentiment_analysis_openai(test_text)
print("OpenAI 情感分析结果：", result)

示例输出：

OpenAI 情感分析结果： 正面

提示：

engine 参数可以指定不同的GPT模型，比如 text-davinci-003 或者更新版本的模型。
prompt 就是你给OpenAI的命令，这里我们把文本和要求一并告诉模型，让它判断情感倾向。

优点：使用 OpenAI API，你可以省去收集大型数据集、训练模型的过程，直接调用高性能的预训练模型。
缺点：需要网络与API Key，并且有一定的成本。

难点总结

数据收集和标注：数据是情感分析的基石。如果数据不足或标注不准确，模型效果很难提升。
文本预处理：不同语言的分词、停用词表以及字符处理规则都不一样。以英语为例，去除停用词很常见；但是针对其他语言，需要使用特定的分词工具和停用词库。
模型泛化能力：如果训练数据和实际场景差异大，模型在实战中容易表现不佳。
调参与特征工程：朴素贝叶斯、逻辑回归、SVM等模型常常需要调整超参数，并选择合适的向量化方式。

课后练习

尝试不同的向量化方法：把 CountVectorizer 改成 TfidfVectorizer，比较模型的准确率、精确率、召回率。
替换模型：将朴素贝叶斯替换为逻辑回归或随机森林，看看是否能够得到更好的性能。
多分类情感分析：将情感标签扩展为“正面”、“负面”、“中性”三种，或者更细致的等级。在数据集不变的情况下，你可以自定义一些规则，把评价分成不同的情绪等级。
使用OpenAI的Embedding接口：调用OpenAI的 embedding 功能来获取文本向量，然后用自己的分类器进行训练。比较这种方式与传统 CountVectorizer / Tfidf 的差异。
不同语言的情感分析：如果你对其他语言感兴趣，可以尝试收集相应语料，看看哪些环节需要修改（如分词、停用词处理等）。

课后练习示例讲解（示例1：TfidfVectorizer）

from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer()
X_tfidf = tfidf.fit_transform(df['cleaned_review'])

X_train_tfidf, X_test_tfidf, y_train, y_test = train_test_split(X_tfidf, y, test_size=0.2, random_state=42)

model_tfidf = MultinomialNB()
model_tfidf.fit(X_train_tfidf, y_train)

y_pred_tfidf = model_tfidf.predict(X_test_tfidf)
print("Accuracy with TF-IDF:", accuracy_score(y_test, y_pred_tfidf))
print("Classification Report with TF-IDF:\n", classification_report(y_test, y_pred_tfidf))