当前位置: 首页 > news >正文

建设银行粤通卡网站亚马逊雨林在地图上的位置

建设银行粤通卡网站,亚马逊雨林在地图上的位置,百度搜索推广技巧,grace6.1 wordpress1. 主成分分析(PCA,Principal Component Analysis) 基本原理 PCA 是一种线性降维方法,其核心思想是: 找到数据中方差最大的方向(称为主成分),并将数据投影到这些方向上。 利用正交变…

1. 主成分分析(PCA,Principal Component Analysis)

  • 基本原理
    PCA 是一种线性降维方法,其核心思想是:

    • 找到数据中方差最大的方向(称为主成分),并将数据投影到这些方向上。

    • 利用正交变换将原始变量转换为一组彼此不相关(正交)的新变量,这些变量按照数据方差从大到小排列。

  • 优点

    • 计算简单且高效:基于线性代数(特征值分解或奇异值分解)的实现简单。

    • 解释性好:每个主成分都对应数据中变异最大的方向,容易理解数据主要结构。

    • 降低噪音:舍弃低方差的成分,可以过滤掉部分噪音,提高信号质量。

  • 局限性

    • 线性假设:PCA 只能捕捉数据中的线性关系,对于非线性结构效果有限。

    • 信息丢失:降维过程中可能丢失部分信息,尤其是在选择低维表示时。

    • 标准化要求:当各特征量纲不同或量级差异大时,需要对数据进行标准化处理。


2. t-SNE(t-Distributed Stochastic Neighbor Embedding)

  • 基本原理
    t-SNE 是一种非线性降维方法,侧重于保留数据局部结构,具体流程包括:

    • 首先将高维数据中相邻点之间的相似性转化为条件概率分布。

    • 然后在低维空间中重新构造一个概率分布,使得低维点与高维点之间的相似性尽可能一致。

    • 使用 Kullback-Leibler 散度(KL 散度)作为损失函数,通过梯度下降进行优化。

  • 优点

    • 局部结构保留优秀:能够较好地展示高维数据中的簇结构或群聚现象。

    • 适合数据可视化:常用于二维或三维数据可视化,能直观展示数据的嵌入结果。

  • 局限性

    • 计算复杂度较高:尤其在大规模数据集上运行较慢。

    • 全局结构缺失:在尽力保留局部相似性时,可能会忽略全局数据分布关系。

    • 参数依赖性强:如 perplexity 参数等需要根据数据特点进行调整,否则可能出现过度聚类或过度分散的情况。


3. UMAP(Uniform Manifold Approximation and Projection)

  • 基本原理
    UMAP 是一种基于流形学习理论的非线性降维方法,其理论基础源自拓扑学和几何学,具体步骤包括:

    • 构造高维数据的邻近图,捕捉局部邻域结构。

    • 利用优化技术将高维邻接图映射到低维空间,并在保持局部邻近关系的同时尽量保留全局结构信息。

  • 优点

    • 速度较快:相较于 t-SNE,UMAP 通常具有更高的计算效率,适用于大规模数据集。

    • 保全全局与局部结构:在降维时兼顾了局部结构与全局关系,使得低维表示更加丰富。

    • 可扩展性好:支持监督方式和半监督方式,可用于分类、聚类等任务前的预处理。

  • 局限性

    • 参数选择:其结果对邻域大小(n_neighbors)、最小距离(min_dist)等参数较为敏感,需要一定经验和调整。

    • 解释性较弱:和 t-SNE 一样,UMAP 提供的是一种非线性嵌入,难以从结果直接推导原始特征的重要性。


4. 多维尺度分析(MDS,Multidimensional Scaling)

  • 基本原理
    MDS 的目标是将数据的距离关系在低维空间中进行重现,步骤包括:

    • 计算高维数据中各样本间的距离或相似性矩阵。

    • 在低维空间中寻找一个配置,使得低维点间的欧氏距离尽量接近于原始数据中的距离。

    • 优化目标通常是最小化距离失真(stress 或 strain)。

  • 优点

    • 灵活性强:适用于各种类型的相似度或距离定义,不仅限于欧氏距离。

    • 全局结构反映:力图重现整个数据集的距离关系,对于全局结构有较好表现。

  • 局限性

    • 计算复杂度高:对于大样本数的数据集,计算距离矩阵和求解优化问题可能变得非常耗时。

    • 容易陷入局部最优:优化过程依赖初始配置,可能会出现局部最优解。

    • 降维结果解释性有限:相比 PCA,MDS 降维结果缺乏明确的“主成分”解释,更多是从距离保留角度分析。


总结对比

  • PCA:适用于数据存在线性关系并需要保持全局方差信息时;易于理解和实现。

  • t-SNE:适合用来发现局部群体结构与簇;效果直观但计算相对较慢且不适合大规模数据。

  • UMAP:兼顾局部与全局结构,速度快、可扩展性好,但需要调参;近年来在可视化和预处理方面应用广泛。

  • MDS:重视保留数据内在距离信息,适用于基于距离或相似度的分析;计算量大,尤其在大数据集上可能不够高效。

http://www.dtcms.com/a/397719.html

相关文章:

  • 企业网站建设的误区主要有棋牌网站建设源码
  • 专业的集团网站建设科技公司php网站模版
  • 广州网站制作系统wordpress路径增加discuz
  • 医疗培训网站建设网站备案和域名备案有什么区别
  • 兰亭集势的网站平台建设推广软件有哪些
  • 工程机械 网站模板网络舆情处置工作方案
  • 浦口区网站建设及推广怎么设置公司网站
  • 网站后台用什么语言网站要怎么盈利
  • 网站开发流程前端网站平台需要做无形资产吗 怎么做
  • 河北网站建设有限公司wordpress网站注册不了
  • p2p理财网站开发流程贵州有网站的企业
  • 扬州网站建设suteng网站制作的
  • 东莞英文建站营销培训去哪个学校好
  • 单县做网站软件商城哪个好
  • 深圳语种网站建设淘宝网页制作教程视频
  • 义乌正规自适应网站建设首选萧县住房和城乡建设局网站
  • 网站开发需要学什么语言网站建设项目申请书
  • 北京市网络科技有限公司合肥网站快速排名优化
  • 什么网站有女人跟狗做的做淘宝网站如何提取中间的提成
  • 青海网站建设推广签署网站建设协议新闻
  • 卖鞋的网站建设思路淄博做网站建设公司
  • 泰州网站关键词优化软件咨询济宁营销网站建设
  • 做ppt的模板网站有哪些网站建设用户需求
  • 大连网站建设兼职公司有网站有什么好处
  • 成都网站建设公司官网工信部网站备案流程
  • 网页设计与网站建设试卷淄博网站外包
  • html做游戏网站做详情页比较好的网站
  • 网站建设的流程怎么写深圳网站开发费用
  • 建设企业功能型网站网站的网站建设公司
  • 汽车网站建设参考文献开题报告爱企查官网