深度学习模型表征提取全解析
模型内部进行表征提取的方法
在自然语言处理(NLP)中,“表征(Representation)”指将文本(词、短语、句子、文档等)转化为计算机可理解的数值形式(如向量、矩阵),核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分
一、传统静态表征(无上下文,词级为主)
这类方法为每个词分配固定向量,不考虑其在具体语境中的含义(无法解决“一词多义”),但奠定了早期NLP表征的基础。
-
离散符号表征
- 词袋模型(Bag-of-Words, BoW):将文本视为“词的集合”,忽略顺序和语法,用向量维度对应词表,值为词出现的次数(或0/1)。例如“我爱自然语言”可表示为
[1,1,1,0,...]
(假设词表包含“我”“爱”“自然语言”等)。 - TF-IDF:改进BoW,通过“词频(TF)×逆文档频率(IDF)”衡量词的重要性(IDF抑制高频无意义词,如“的”“是”)。
- 词袋模型(Bag-of-Words, BoW):将文本视为“词的集合”,忽略顺序和语法,用向量维度对应词表,值为词出现的次数(或0/1)。例如“我爱自然语言”可表示为