当前位置：首页 > news >正文

YouTube评论情感分析项目84%正确率：基于BERT的实战复现与原理解析

news 2025/10/26 7:43:21

一、项目介绍

![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/8538d0876a9641a69829e3c5fd795d1e.png

随着社交媒体数据日益丰富，评论情感分析已成为NLP领域重要应用之一。本文分享基于BERT预训练模型实现的YouTube评论情感分类项目。核心任务是自动识别评论为积极、消极或中性类别，并详细解析代码实现机制及复现流程。

二、依赖与环境要求

为保证结果完全复现，建议严格使用如下依赖版本：

pandas==2.2.3
numpy==2.1.2
matplotlib==3.10.1
transformers==4.51.3
tqdm==4.67.1
torch==2.7.0+cu128
scikit-learn==1.6.1

三、核心技术原理

1. 数据处理与标签编码

读取CSV格式YouTube评论数据
清理缺失评论项，针对三类情感（negative/neutral/positive）进行标签编码（0/1/2）
分层随机划分训练集与验证集，保持分布均衡

2. 文本分词与BERT嵌入

初始化 BertTokenizer，选用 bert-base-uncased 英文基础模型
分词过程中对最大长度（常用:128）截断或填充，确保每条文本一致
大数据分批次处理，统计分词分布优化MAXLEN参数选择

3. 数据集封装与采样

定制PyTorch Dataset类，批量生成模型输入
对类别失衡通过WeightedRandomSampler进行动态均衡，以防偏向“大类”标签

4. 模型架构

主体为 BertModel + Dropout + 全连接层
分类头部（单层FC）：输入BERT池化向量，输出三分类
损失函数采用加权CrossEntropyLoss（支持类别权重）

class BertClassifier(nn.Module):def __init__(self, pretrained_model, num_classes, class_weights=None):self.bert = BertModel.from_pretrained(pretrained_model)self.dropout = nn.Dropout(0.3)self.fc = nn.Linear(self.bert.config.hidden_size, num_classes)self.loss_fn = nn.CrossEntropyLoss(weight=class_weights) if class_weights else nn.CrossEntropyLoss()def forward(self, input_ids, attention_mask, labels=None):pooled = self.bert(input_ids=input_ids, attention_mask=attention_mask).last_hidden_state[:, 0]x = self.dropout(pooled)logits = self.fc(x)if labels is not None:loss = self.loss_fn(logits, labels)return logits, lossreturn logits

模型支持GPU装载，自动适配CUDA设备。

四、训练及评估流程

1. 随机种子和环境复现

为保证结果严格复现，设置如下随机种子：

import random, numpy as np, torch
seed = 42
random.seed(seed)
np.random.seed(seed)
torch.manual_seed(seed)
torch.cuda.manual_seed_all(seed)
torch.backends.cudnn.deterministic = True
torch.backends.cudnn.benchmark = False

确保每次训练结果一致且可追溯。

2. 训练与验证循环

AdamW优化器，实验建议2-10 epoch依实际数据酌情增减
每轮输出Loss/Accuracy，利用Scikit-learn classification_report及混淆矩阵评估模型性能
验证集准确率最终约0.8380，宏平均F1接近0.81，正负面检出率明显高于中性类别

3. 单条文本分类及批量测试

模型训练完毕后可直接单条评论预测，例如：

model.load_state_dict(torch.load('best_bertsentiment.pth'))
model.eval()
def predict(text):encoding = tokenizer(text, truncation=True, padding='max_length', max_length=MAXLEN, return_tensors='pt')input_ids = encoding['input_ids'].to(device)attention_mask = encoding['attention_mask'].to(device)with torch.no_grad():logits = model(input_ids, attention_mask)pred = logits.argmax(1).item()return id2label[pred]
result = predict("I love this channel!")  # 返回 positive