当前位置: 首页 > news >正文

什么是主成分分析法和方差

什么是主成分分析法(PCA)

主成分分析法(PCA)是一种经典的降维与特征提取方法,核心是通过“提取数据中最具代表性的主成分(方差最大的方向)”,在减少维度的同时保留关键信息。对于大语言模型(LLM)的词嵌入向量(如Qwen2.5生成的词嵌入),PCA的作用主要体现在降维去冗余、语义特征提炼、计算效率优化三个方面。

方差

正态分布的方差是衡量数据离散程度的统计量,表示数据围绕均值波动的程度。方差越大,数据分布越分散;方差越小,数据越集中。 ‌

在这里插入图片描述

一、先明确:LLM词嵌入向量的特点

LLM(如Qwen2.5-7B-Instruct)的词嵌入向量是“词语/子词的语义表示”,通常具有以下特点:

  • 高维度:常见维度为768(小模型)、4096(中模型)甚至更高(如Qwen2.5-7B可能为4096维),维度越高,理论上能承载的语义越丰富,但也会引入冗余(部分维度可能重复表达相似语义)。
  • 语义相关性:相似语义的词(如“精彩”和“出色”,“无聊”和“乏味”)的嵌入向量在高维空间中距离更近;相反语义的词(如“好看”和“难看”)距离更远。
  • 冗余性:高维向
http://www.dtcms.com/a/297765.html

相关文章:

  • 【神经网络概述】从感知机到深度神经网络(CNN RNN)
  • 高级05-Java NIO:高效处理网络与文件IO
  • 【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts) 视频教程 - 主页-评论用户时间占比环形饼状图实现
  • vbs-实现模拟打开excel和强制计算和保存
  • 7月25日总结
  • Android Kotlin 协程全面指南
  • Thinkphp8 Redis队列与消息队列Queue
  • C#模拟pacs系统接收并解析影像设备数据(DICOM文件解析)
  • Pattern正则表达式知识点
  • 第二十天(正则表达式与功能实际运用)
  • VUE 学习笔记6 vue数据监测原理
  • 设计模式十:单件模式 (Singleton Pattern)
  • 空间信息与数字技术专业能从事什么工作?
  • 【LeetCode数据结构】二叉树的应用(二)——二叉树的前序遍历问题、二叉树的中序遍历问题、二叉树的后序遍历问题详解
  • uniapp创建vue3+ts+pinia+sass项目
  • 2025年RISC-V中国峰会 主要内容
  • 绘图库 Matplotlib Search
  • RISC-V VP、Gem5、Spike
  • 恋爱时间倒计时网页设计与实现方案
  • 借助Aspose.HTML控件,在 Python 中将 SVG 转换为 PDF
  • Vue nextTick
  • 基于超176k铭文数据,谷歌DeepMind发布Aeneas,首次实现古罗马铭文的任意长度修复
  • MySQL存储引擎深度解析与实战指南
  • Java面试题及详细答案120道之(001-020)
  • JAVA_FIFTEEN_异常
  • LeetCode 233:数字 1 的个数
  • Zero-Shot TrackingT0:对象分割+运动感知记——当“切万物”武士学会运动记忆,目标跟踪稳如老狗
  • 力扣面试150题--寻找旋转排序数组中的最小值
  • 互联网金融项目实战(大数据Hadoop hive)
  • 代码随想录算法训练营第五十三天|图论part4