什么是主成分分析法和方差
什么是主成分分析法(PCA)
主成分分析法(PCA)是一种经典的降维与特征提取方法,核心是通过“提取数据中最具代表性的主成分(方差最大的方向)”,在减少维度的同时保留关键信息。对于大语言模型(LLM)的词嵌入向量(如Qwen2.5生成的词嵌入),PCA的作用主要体现在降维去冗余、语义特征提炼、计算效率优化三个方面。
方差
正态分布的方差是衡量数据离散程度的统计量,表示数据围绕均值波动的程度。方差越大,数据分布越分散;方差越小,数据越集中。
一、先明确:LLM词嵌入向量的特点
LLM(如Qwen2.5-7B-Instruct)的词嵌入向量是“词语/子词的语义表示”,通常具有以下特点:
- 高维度:常见维度为768(小模型)、4096(中模型)甚至更高(如Qwen2.5-7B可能为4096维),维度越高,理论上能承载的语义越丰富,但也会引入冗余(部分维度可能重复表达相似语义)。
- 语义相关性:相似语义的词(如“精彩”和“出色”,“无聊”和“乏味”)的嵌入向量在高维空间中距离更近;相反语义的词(如“好看”和“难看”)距离更远。
- 冗余性:高维向