藏文情感分析器入门学习实践
🎯 项目目标:
- 输入一段藏文短句。
- 自动分析这句话的情感倾向:积极(正面)/消极(负面)/中立。
🔍 技术原理简介
情感分析是什么?
情感分析(Sentiment Analysis)是自然语言处理的一个重要应用,目的是自动识别和提取文本中的情感倾向。
常用的情感分析方法:
-
基于规则的方法:
使用情感词典,对句子进行简单判断(适合初学)。 -
基于传统机器学习的方法:
使用分类算法,如支持向量机(SVM),通过特征工程进行分类。 -
基于深度学习的方法:
使用神经网络模型(如BERT、LSTM),自动学习文本的深层次语义,准确度更高。
我们本次项目使用简单易上手的规则词典方法进行演示,适合初学者理解和操作。
🛠️ 一、项目环境准备
1️⃣ Python安装(已安装可跳过)
- 推荐安装Python 3.8以上版本。
2️⃣ 安装所需库
在命令行输入:
pip install pybo
📂 二、创建项目文件结构
创建项目文件夹sentiment_analysis
,并准备以下文件:
sentiment_analysis/
│
├── sentiment_analyzer.py
├── sentiment_dict.txt
└── test_sentences.txt
📝 三、准备数据与情感词典
1️⃣ 创建藏文情感词典(sentiment_dict.txt)
藏文情感词典示例如下:
# 积极词 Positive(每行:词 空格 正面)
དགའ་པོ་ positive
སྐྱིད་པོ་ positive
བདེ་པོ་ positive# 消极词 Negative(每行:词 空格 负面)
ཁོག་ negative
དཀྲོལ་ negative
སྡུག་པོ་ negative
ངན་པ་ negative
说明:
- 文件用UTF-8格式保存。
- 每行一个藏文词汇,后面跟情感标签(positive 或 negative)。
中文释义对应如下:
# 积极词 Positive
喜欢
快乐
舒服# 消极词 Negative
坏的
坏人
坏的
歪曲
2️⃣ 创建测试短句(test_sentences.txt)
例如:
ང་དགའ་པོ་ཡོད།
ཁོང་གི་སྐྱིད་པོ་མི་འདུག
དེ་ག་རང་ཡིན།
中文分别为:
我愛快乐。
他不高兴。
就这样。
💻 四、编写情感分析代码(sentiment_analyzer.py)
打开sentiment_analyzer.py
,输入以下代码:
from pybo import WordTokenizer# 步骤1:加载情感词典
def load_sentiment_dict(filepath):sentiment_dict = {}with open(filepath, "r", encoding="utf-8") as f:for line in f:line = line.strip()if line and not line.startswith("#"):word, sentiment = line.split()sentiment_dict[word] = sentimentreturn sentiment_dict# 步骤2:分析句子情感
def analyze_sentiment(sentence, sentiment_dict, tokenizer):tokens = tokenizer.tokenize(sentence)print("调试:分词结果 =", [token.text for token in tokens])positive_count = 0negative_count = 0for token in tokens:sentiment = sentiment_dict.get(token.text, "neutral")if sentiment == "positive":positive_count += 1elif sentiment == "negative":negative_count += 1# 判断整体情感if positive_count > negative_count:return "积极 (positive)"elif negative_count > positive_count:return "消极 (negative)"else:return "中立 (neutral)"# 主程序运行
if __name__ == "__main__":tokenizer = WordTokenizer()sentiment_dict = load_sentiment_dict("sentiment_dict.txt")# 读取测试句子with open("test_sentences.txt", "r", encoding="utf-8") as f:sentences = f.readlines()print("藏文情感分析结果:")for sentence in sentences:sentence = sentence.strip()sentiment_result = analyze_sentiment(sentence, sentiment_dict, tokenizer)print(f"句子:{sentence}")print(f"情感倾向:{sentiment_result}\n")
▶️ 五、运行程序,查看结果
在命令行中进入你的项目目录并运行:
python sentiment_analyzer.py
输出示例:
藏文情感分析结果:
调试:分词结果 = ['ང་', 'དགའ་པོ་', 'ཡོད', '།']
句子:ང་དགའ་པོ་ཡོད། #中文:我快乐。
情感倾向:积极 (positive)调试:分词结果 = ['ཁོག་', 'དཀྲོལ་', 'གྱི་', 'ཡོད', '།']
句子:ཁོག་དཀྲོལ་གྱི་ཡོད། #中文:他不高兴。
情感倾向:消极 (negative)调试:分词结果 = ['དེ་ག་', 'རང་', 'ཡིན', '།']
句子:དེ་ག་རང་ཡིན། #中文:就这样。
情感倾向:中立 (neutral)
🧠 原理讲解
情感分析步骤(完整流程):
-
数据标注:
人工或半自动对文本数据进行标注情感类别(积极、消极、中立)。 -
文本特征提取:
对文本进行分词,提取词汇、语法或语义特征。 -
模型训练与评估:
- 传统机器学习模型(如SVM):
- 基于标注数据训练模型,预测情感类别。
- 深度学习模型(如BERT):
- 利用预训练模型微调,获得更精准预测能力。
- 传统机器学习模型(如SVM):
本文采用词典方法,简单直观,适合零基础快速理解并掌握情感分析的概念。
📌 常见问题与解决办法
问题 | 原因 | 解决方法 |
---|---|---|
未识别情感 | 情感词典覆盖不足 | 扩充情感词典,增加积极和消极词汇 |
中文乱码或文件读取错误 | 文件未用UTF-8编码保存 | 用记事本或其他编辑器重开并以UTF-8格式保存 |
🚀 拓展练习(推荐):
- 尝试添加更多藏文句子到测试文件中,丰富你的情感分析结果。
- 扩展情感词典,增加词汇数量,提高准确性。
- 探索使用简单机器学习工具,如
sklearn
的SVM分类器进一步提升性能。
🎉 恭喜你!你已经完成了藏文情感分析器项目的基础实现。
未来可以进一步探索深度学习模型来提升精度,这个初级项目可以是深入学习人工智能的一个起点!