当前位置: 首页 > news >正文

数据挖掘导论——第二章:数据

谈数据之前,我们要先知道数据有哪几种类型。数据的维度,数据的频率、位置、分布(方差或标准差衡量)等。

接着就是数据的质量,数据挖掘着眼于要么是对数据质量问题的检测和纠正,要么是使用可以容忍低质量数据的算法。第一步对数据质量问题的检测和纠正,通常称作数据清理。

涉及测量误差的问题:噪声、伪像、偏置、精度和准确度。

同时涉及测量误差和数据收集的问题:离群点、遗漏值、重复数据。

如何处理缺失值?删除/估计缺失值/分析过程中忽略缺失值/用所有可能值(按概率加权)替换

非标准化数据:不同特征的值域差别过大。这会带来什么问题?

1,在计算不同样本之间的距离时,假如不标准化,可能造成对特征的重要程度估计的影响

2,忽略了真正的偏差

两类标准化方式:

1,Max-Min标准化。容易受极端值影响。

2,Z-score标准化。使用前提:高斯分布。

标准化是同类数据之间进行的。

值得一提的是基因/蛋白表达矩阵(行为样本,列为基因),需要去除batch的时候,是沿着列标准化,要对基因表达正则化则沿着行(有些基因天生表达差异大)

对于分类数据或非量化数据,可以用one-hot encoding。

总之,数据清洗分为以下几步:数据去噪,清除异常值,处理缺失值,删除重复,分类数据编码,数据标准化。先后顺序可能会影响最后结果。

http://www.dtcms.com/a/63191.html

相关文章:

  • Python入门宝典:函数、列表元组与字典详解
  • Linux:多线程(三.POSIX信号量、生产消费模型、线程池)
  • 计算机网络——IP、MAC、ARP
  • 常见的交换机端口类型
  • golang从入门到做牛马:第十七篇-Go语言Map:键值对的“魔法袋”
  • 【前端】【组件】【vue2】封装一个vue2的ECharts组件,不用借助vue-echarts
  • ctf-web: php原生类利用 -- GHCTF Popppppp
  • 深度学习笔记——残差网络和模型选择
  • 【python-uiautomator2】手机上的ATX应用界面报错问题处理:无法提供服务,非am instrument启动
  • 图像处理篇---opencv中的图像特征
  • JavaScript基本知识
  • 【C++模板】:开启泛型编程之门(函数模版,类模板)
  • 大模型在甲状腺良性肿瘤诊疗全流程中的应用研究报告
  • 【Golang】第一弹-----初步认识GO语言
  • docker 小记
  • 使用 OpenSSL 和 Python 实现 AES-256-CBC 加密与解密(安全密钥管理)
  • Node 使用 SSE 结合redis 推送数据(echarts 图表实时更新)
  • Javascript基础语法详解
  • 深入探索Matter协议:开发Matter智能家居设备的基本步骤
  • 《Java三剑客:JDK、JRE、JVM的“塑料友情”》
  • wireshark 如何关闭混杂模式 wireshark操作
  • redis在ubuntu更新至最新版本-官方提供方法-查看版本和状态-查看数据库中数据
  • 【Javascript网页设计】在线食谱分享页面案例
  • 网络防火墙是什么有什么用_网络防火墙:守护信息安全的重要屏障
  • 【论文精读】ACE-Zero
  • 电脑的写字板如何使用?
  • FastJSON常用注解
  • 利用python生成excel中模板范围对应的shape文件
  • 指令微调 (Instruction Tuning) 与 Prompt 工程
  • 光电感知赋能智能未来 灵途科技护航新质生产力发展