SPSS跨域分类:自监督知识+软模板优化
1. 图1:SPSS方法流程图
- 作用:展示了SPSS方法的整体流程,从数据预处理到模型预测的关键步骤。
- 核心内容:
- 领域知识提取:使用三种词性标注工具(NLTK、spaCy、TextBlob)从源域和目标域提取名词或形容词(如例句中提取“excellent”“good”等形容词)。
- 词汇交集与聚类:对提取的词汇取交集,通过余弦相似度计算与正负类别的相关性,生成源域和目标域的标签词集合(如“positive”相关词汇集合)。
- 软模板构建:将输入句子向量、软令牌(soft tokens)和掩码([MASK])结合,通过BiLSTM优化软令牌,形成软提示模板。
- 跨域分类:利用预训练模型(如RoBERTa)预测[MASK]位置的词汇概率