当前位置: 首页 > news >正文

Apache Spark算法开发指导-特征转换RobustScaler

数据标准化是使用统计学的手段对数据样本执行一定范围的缩放,使数据元素保持在一定的范围之内,标准化的数据集合在数据分析以及图表绘制中,更加容易地体现出数据的固有特性。

算法RobustScaler的计算公式:(数据元素-中位数)/(第三分数位-第一分数位),例如,给定排序后的数据集合[1,3,6,8,9,13],集合的大小为6,先计算中位数(第二分数位),集合的大小为奇数,中位数是中间位置的数据元素,集合的大小为偶数,则中位数是中间两个数据元素的均值,则中位数(6+8)/2等于7,计算第一分数位的位置(1+6)/4等于1.75,即在第1与第2个数之间的位置,则第一分数位(1+0.75*(3-1))等于2.5,计算第三分数位的位置((1+6)*3)/4等于5.25,即在第5与第6个数之间的位置,即第三分数位(9+0.25*(13-9))等于10,则使用算法RobustScaler的计算公式对数据集合实现缩放的输出数据集合[-0.8,-0.53…,-0.13…,0.13…,0.26…,0.8]。

Java代码示例

创建算法RobustScaler测试类,初始化spark实例:

图片

加载数据分类libsvm的标准测试数据集合:

图片

数据分类libsvm的标准测试数据集合的部分数据样本,其中,第一列是标签,用于标识数据的分类,其他列是特征数据(特征值对应的索引号:特征值):

图片

创建算法RobustScaler实例,设置输入输出数据列的名称,设置分数位参数:

图片

创建算法RobustScaler模型实例,用于对向量数据集合执行特征转换:

图片

使用算法RobustScaler模型实例执行特征转换,输出标准化的向量数据集合:

图片

特征转换输出的部分数据样本,其中,第一列是标签,692是特征值的总数,特征值对应的索引号集合,特征转换的标准缩放的数据集合:

图片

Scala代码示例

与Java代码示例的功能逻辑相同:

图片

启动spark-shell的Scala本地运行环境:

图片

运行RobustScaler算法代码:

图片

特征转换输出的数据集合:

图片

http://www.dtcms.com/a/558310.html

相关文章:

  • 广东省省考备考(第一百三十九天11.1)——判断推理、资料分析、数量关系(强化训练)
  • 自己建网站有什么用网站运营需要哪些知识
  • 网站 app建设开发合作协议有没有做推文的网站
  • 企业做网站公司排名口碑硬件开发平台
  • 德州做网站的公司南昌网站建设哪家就好
  • 【python】装饰器
  • 培训计划--linux基础操作
  • 做一网站要什么时候开始企业网站的建设包括哪些
  • 023数据结构之线段树——算法备赛
  • 做化工回收的 做那个网站广东新闻发布会
  • 《信息系统项目管理师》2024 年上第 2 批次案例分析题及解析
  • 华为OD机试双机位A卷 - 插队 (C++ Python JAVA JS GO)
  • 裕华区建设局网站九天智能建站软件
  • 牛客101:递归/回溯
  • flash网站开源全国网站建设哪家专业
  • 网站整体克隆包含后台安卓app软件制作工具
  • 【Linux lesson3】进程概念
  • XPath语法及Python的lxml包学习
  • 网站管理系统源码怎么做网站icp备案
  • 生活视角下Prompt 提示词思考
  • 网站建设空间空间有几种类型成都电商网站
  • ROS2系列 (17) : Python服务通信实例实例——Server端
  • Windows 11 回退至windows 10
  • Pandas--数据读取与写入
  • 东莞seo网站优化方式毕业设计网站建设英文文献
  • 网站开发验收流程图网站建设渠道合作
  • 网站建设项目设计的图片做阿里巴巴怎么进公司网站
  • (N_158)基于微信小程序学生社团管理系统
  • html5经管网站模板企业oa管理系统
  • 【Kubernets】Kubernetes 资源类型大全:使用场景与配置示例