当前位置：首页 > news >正文

【Datawhale夏令营】用AI做带货视频评论分析

news 2025/7/14 16:50:58

文本分类、文本聚类

基础库： pandas, sklearn
功能：商品识别、情感分析、评论聚类
商品识别：视频文本信息，预测推广商品名称 & 情感分析：四个维度（情感倾向、用户场景、用户疑问、用户建议）
- jieba中文分词
- TF-IDF，文本转特征向量
- SGDClassifier，分类预测
评论聚类：五个维度（正面、负面、用户场景、用户疑问、用户建议）
- jieba 分词
- TF-IDF 向量化
- KMeans 聚类

重难点

目标：从文本中“提取“商业洞察

关键任务：文本编码、文本分类、文本聚类

文本编码：将人类可读文本转换为机器可理解的数值向量表示。
- 独热编码（One-Hot Encoding): 将每个词表示为一个稀疏向量，向量中只有一个位置为1，其他位置为0。适用于词汇量较小场景，但会产生高维稀疏向量，且无法捕捉词语间的语义关系。
- 词嵌入（如Word2Vec、GloVe等静态词向量）：将词语映射到低纬度连续向量空间，相似词在向量空间中距离也相近。
- 基于预训练模型上下文词嵌入（如BERT、GPT等动态词向量）
文本分类：根据文本内容将其自动归类到预定义类别。
- 基于规则和词典方法
- 传统机器学习方法（如朴素贝叶斯、支持向量机SVM等）
- 深度学习方法（如循环神经网络RNN、卷积神经网络CNN、Transformer等）
文本聚类：根据文本内容的相似性将文本分组，无需预先定义类别。聚类评估指标通常用轮廓系数。
- K-Means（需预设簇数K）
- 层次聚类：构建一个树状结构，可以直观地展示聚类过程。
- DBSCAN：基于密度的聚类算法，能够发现任意形状的簇，并且不需要预设聚类数量。
- 轮廓系数：衡量聚类结果的紧密型和分离度。值越接近1表示聚类效果越好，越接近-1表示
大语言模型（LLM）
- 大模型零样本/少样本学习能力，针对于有限标注数据完成学习
- 微调预训练模型
- 使用预训练模型提供的API接口获取文本向量表示，用于后续分类或聚类。